基于TF-IDF算法进行关键词抽取(jieba分词,lagoujobdetails.txt)

 1 import jieba
 2 import sys
 3 import jieba.analyse
 4 from optparse import OptionParser
 5 tfidf = jieba.analyse.extract_tags
 6 
 7 with open('lagoujobdatails.txt',encoding='utf-8') as f:
 8     tmp_line=f.read()
 9     jieba_cut=jieba.cut(tmp_line)
10     ans=''.join(jieba_cut)
11     text=ans
12     k=tfidf(text)
13     for i in k:
14         print(i)
['爬虫', '熟悉', '抓取', '经验', '开发', '网页', '优先', '数据', '负责', 'spanclass', '精通', '分布式', '技术', '系统', '算法', '岗位职责', '工作', '网络', '设计', '编程']

 其中"爬虫‘,’spanclass','岗位职责‘是垃圾数据,数据清理时没清理完

转载于:https://www.cnblogs.com/realmonkeykingsun/p/7993630.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值