jieba

对于从txt文本读取是出现不能解码,可以用记事本打开文本,复制文本在sublime打开再保存,写文件是加“wb”,

import jieba
from jieba.analyse import *

# s="我是一只小小鸟,想要飞,却怎么也飞不高。"
# k=jieba.cut(s)
# print(list(k))

# 数据清洗,去除空格
s=''
i=0
f=open('566.txt','rb')
y=f.readlines()
for i in y:
    s=s+i.decode('utf-8').strip().strip('\n')
# print(s)
# 去除关键词
gg=open('22.txt','wb')
gg.write('没有'.encode())
gg.close()
jieba.analyse.set_stop_words('22.txt')

# # 默认分词模式,返回一个generator,
# kk=jieba.cut(s)
# print(list(kk))

# 提取关键词--TF-IDF
for k ,v in extract_tags(s,topK=30,withWeight=True):
    print('{}>>{}'.format(k,v))
print('.......................')

# # 提取关键词--TextRank
# for l,m in textrank(s,withWeight=True):
#   print('{}>>{}'.format(l,m))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值