通过TF-IDF算法进行文本分析与实体识别，利用倒排索引进行计算优化

最新推荐文章于 2022-10-29 00:24:52 发布

Joyce_Ff

最新推荐文章于 2022-10-29 00:24:52 发布

阅读量1.6k

点赞数

分类专栏：数据科学文章标签：实体识别倒排索引 TF-IDF算法

本文链接：https://blog.csdn.net/Joyce_Ff/article/details/89518244

版权

本文旨在掌握和理解实体识别，特别是通过TF-IDF算法进行文本分析。在Windows10环境下，使用Python3.6和PyCharm，作者对Amazon和Google的商品数据集进行了实体识别实验。实验包括打开文件、分割文本、计算TF值、求TF-IDF值以及优化算法实现，如计算模和构建Google的逆向索引。

摘要由CSDN通过智能技术生成

一、目的

掌握并理解实体识别的方法

理解TF-IDF算法

二、环境

Windows10操作系统、Python3.6、PyCharm

三、内容

利用文本分析技术进行关于两个商品数据集（Amazon和 Google的众多商品的数据记录文件）的实体识别。

在我的下载里可以找到实验数据。

【我不太明白这个下载积分怎么设置哎，没看到修改积分的按钮之类的，它就自动给我弄成5积分了，其实我没想要这么多，对大家来说有点儿贵，如果有人知道怎么修改积分设置可以联系我，我给它改成1积分或者直接免费就行了，谢谢咯！】

四、步骤

1、打开文件，并将数据存放到列表中。

def OpenFile():
    fileA = open('Amazon_small.csv', 'rt', encoding='utf-8')
    readers = csv.reader(fileA)
    # 跳过表头
    next(fileA)
    for line in readers:
        Amazon.append(line)
    # print(Amazon)
    print()

    fileG = open('Google_small.csv', 'rt', encoding='utf-8')
    readers = csv.reader(fileG)
    # 跳过表头
    next(fileG)
    for line in readers:
        Google.append(line)
    # print(Google)
    print()

    with open('stopwords.txt', 'rt') as fileS:
        readers = reader(fileS)
        for line in readers:
            # print(line[0])
            StopWord.append(line[0])
        StopWord.append('')
    # print(StopWord)
    print()

    fileA.close()
    fileG.close()
    fileS.close()

如下图分别是Amazon_small.csv（部分）、Google_small.csv（部分）和stopwords.txt（部分）对应的列表。

最低0.47元/天解锁文章

Joyce_Ff

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
通过TF-IDF算法进行文本分析与实体识别，利用倒排索引进行计算优化

一、目的掌握并理解实体识别的方法理解TF-IDF算法二、环境Windows10操作系统、Python3.6、PyCharm三、内容利用文本分析技术进行关于两个商品数据集（Amazon和 Google的众多商品的数据记录文件）的实体识别。在我的下载里可以找到实验数据。【我不太明白这个下载积分怎么设置哎，没看到修改积分的按钮之类的，它就自动给我弄成5积分了，...
复制链接

扫一扫