通过TF-IDF算法进行文本分析与实体识别,利用倒排索引进行计算优化

本文旨在掌握和理解实体识别,特别是通过TF-IDF算法进行文本分析。在Windows10环境下,使用Python3.6和PyCharm,作者对Amazon和Google的商品数据集进行了实体识别实验。实验包括打开文件、分割文本、计算TF值、求TF-IDF值以及优化算法实现,如计算模和构建Google的逆向索引。
摘要由CSDN通过智能技术生成

、目的

掌握并理解实体识别的方法

理解TF-IDF算法

 

二、环境

Windows10操作系统、Python3.6、PyCharm

 

三、内容

利用文本分析技术进行关于两个商品数据集(Amazon和 Google的众多商品的数据记录文件)的实体识别。

在我的下载里可以找到实验数据。

【我不太明白这个下载积分怎么设置哎,没看到修改积分的按钮之类的,它就自动给我弄成5积分了,其实我没想要这么多,对大家来说有点儿贵,如果有人知道怎么修改积分设置可以联系我,我给它改成1积分或者直接免费就行了,谢谢咯!】

 

四、步骤

1、打开文件,并将数据存放到列表中。

def OpenFile():
    fileA = open('Amazon_small.csv', 'rt', encoding='utf-8')
    readers = csv.reader(fileA)
    # 跳过表头
    next(fileA)
    for line in readers:
        Amazon.append(line)
    # print(Amazon)
    print()

    fileG = open('Google_small.csv', 'rt', encoding='utf-8')
    readers = csv.reader(fileG)
    # 跳过表头
    next(fileG)
    for line in readers:
        Google.append(line)
    # print(Google)
    print()

    with open('stopwords.txt', 'rt') as fileS:
        readers = reader(fileS)
        for line in readers:
            # print(line[0])
            StopWord.append(line[0])
        StopWord.append('')
    # print(StopWord)
    print()

    fileA.close()
    fileG.close()
    fileS.close()

 

如下图分别是Amazon_small.csv(部分)、Google_small.csv(部分)和stopwords.txt(部分)对应的列表。

</

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值