中文关键词自动分类-----从此解放双手了

论坛大神们搞了很多关键词采集工具,神马易语言的,shell的,python的。发现没有搞了那么多关键词,处理起来真是蛋疼,要么分类去采集,要么采集后分类,还有就是原始数据可能是乱七八糟的。秋夜今天分享一个python脚本实现简易的中文文本自动分类。省不少事。我偷了个懒,没有计算词频,直接提取tf-idf值最高的20个词作为分类依据,当然也可以提取更多词语来分类。
使用请先安装结巴分词。(这样分类也只是个思路,这个思路还可以搞不少事情。)
处理百万关键词分分钟的事儿

下面贴代码。有bug请大神帮改正。封装版周末再上。待分类词放在ceshi.txt里,输出结果为text.txt输出格式为:分类:关键词

 

#coding:utf-8
#by@qiuye
import jieba
import jieba.analyse
f1 = open('ceshi.txt','r')
s1 = f1.read()
tags = jieba.analyse.extract_tags(s1,topK=20)
s2 = ','.join(tags).encode('utf-8')
l2 = s2.split(',')
f1.close()
f2 = open('ceshi.txt','r')
s2 = ''
for i in f2.readlines():
        
        s2 = s2 + i
seg_list = jieba.cut(s2)
s2 = '|'.join(seg_list)
<span style="line-height: 1.5;">f2.close()</span>
l4 = []
for word in l2:
        for i in l3:
                if word in i.split('|'):
                         l4.append(word+':'+i)


open('text.txt','w').close()
f3 = open('text.txt','a')
for i in l4:
        l5 = i.split('|')
        s4 = ''
        for word in l5:
                 s4 = s4 + word
         f3.write(s4+'\n')
f3.close()

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值