作业名称:针对真是文本的处理联系
内容:1.读取文件不报错
2.清理文件,确保信息统一,正确格式无误(思考)
3.提取词频(对照,如{"art":100})的格式提取*****
4.再次清理清除无关词汇
5.进行词汇P+N分析(新知识点)(未进行进一步学习与应用,暂不做)
导出表格为:
代码如下:
#导入数据到程序里
file=open("thrump.txt")
text=file.read()
cleantext=text.lower().strip().split()
for word in cleantext:
if"," or "." in word:
print(word[0:-1])
elif"-"or " "in word:
continue
else:
print(word)
import textblob
#20 排名前20的
#wordrate={}
#for word in cleantext:
# if word not in wordrate:
# wordrate[word]=1
# else: