一、目的
掌握并理解实体识别的方法
理解TF-IDF算法
二、环境
Windows10操作系统、Python3.6、PyCharm
三、内容
利用文本分析技术进行关于两个商品数据集(Amazon和 Google的众多商品的数据记录文件)的实体识别。
在我的下载里可以找到实验数据。
【我不太明白这个下载积分怎么设置哎,没看到修改积分的按钮之类的,它就自动给我弄成5积分了,其实我没想要这么多,对大家来说有点儿贵,如果有人知道怎么修改积分设置可以联系我,我给它改成1积分或者直接免费就行了,谢谢咯!】
四、步骤
1、打开文件,并将数据存放到列表中。
def OpenFile():
fileA = open('Amazon_small.csv', 'rt', encoding='utf-8')
readers = csv.reader(fileA)
# 跳过表头
next(fileA)
for line in readers:
Amazon.append(line)
# print(Amazon)
print()
fileG = open('Google_small.csv', 'rt', encoding='utf-8')
readers = csv.reader(fileG)
# 跳过表头
next(fileG)
for line in readers:
Google.append(line)
# print(Google)
print()
with open('stopwords.txt', 'rt') as fileS:
readers = reader(fileS)
for line in readers:
# print(line[0])
StopWord.append(line[0])
StopWord.append('')
# print(StopWord)
print()
fileA.close()
fileG.close()
fileS.close()
如下图分别是Amazon_small.csv(部分)、Google_small.csv(部分)和stopwords.txt(部分)对应的列表。
</