对于从txt文本读取是出现不能解码,可以用记事本打开文本,复制文本在sublime打开再保存,写文件是加“wb”,
import jieba
from jieba.analyse import *
# s="我是一只小小鸟,想要飞,却怎么也飞不高。"
# k=jieba.cut(s)
# print(list(k))
# 数据清洗,去除空格
s=''
i=0
f=open('566.txt','rb')
y=f.readlines()
for i in y:
s=s+i.decode('utf-8').strip().strip('\n')
# print(s)
# 去除关键词
gg=open('22.txt','wb')
gg.write('没有'.encode())
gg.close()
jieba.analyse.set_stop_words('22.txt')
# # 默认分词模式,返回一个generator,
# kk=jieba.cut(s)
# print(list(kk))
# 提取关键词--TF-IDF
for k ,v in extract_tags(s,topK=30,withWeight=True):
print('{}>>{}'.format(k,v))
print('.......................')
# # 提取关键词--TextRank
# for l,m in textrank(s,withWeight=True):
# print('{}>>{}'.format(l,m))