python 中文统计词频,分词,去除停止词

Python
# coding: utf-8 # In[46]: import <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/jieba" title="View all posts in jieba" target="_blank">jieba</a></span> text = '''新乡SEO 昊天 seo 168seo.cn 免费分享最新的SEO技术,本站的目的是与同行交流SEO知识,并提供企业网站优化、企业网站诊断等服务,白帽SEO从我做起,专注用户体验研究'' ''' seg_list = <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/jieba" title="View all posts in jieba" target="_blank">jieba</a></span>.cut_for_search(text) # 搜索引擎模式 # 对于要处理的文本进行搜索引擎分词处理 data = list(seg_list) # 分词后 转化成list stopwords = [line.rstrip() for line in open('stopwords.txt', 'r', encoding="gbk").readlines()] # 读取停止词,生成list data = [d for d in data if d not in stopwords] # 剔除 停止词 c = dict.fromkeys(data, 0) # 构造构造字典,并且默认值为0 for x in data: c[x] += 1 # 统计频次 newc = sorted(c.items(), key=lambda x: x[1], reverse=True) # 进行高频词排序 print(newc) # In[ ]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# coding: utf-8
 
# In[46]:
 
 
import jieba
 
text = '''新乡SEO 昊天 seo 168seo.cn 免费分享最新的SEO技术,本站的目的是与同行交流SEO知识,并提供企业网站优化、企业网站诊断等服务,白帽SEO从我做起,专注用户体验研究''
'''
seg_list = jieba . cut_for_search ( text )    # 搜索引擎模式
# 对于要处理的文本进行搜索引擎分词处理
data = list ( seg_list )
# 分词后 转化成list
stopwords = [ line . rstrip ( ) for line in open ( 'stopwords.txt' , 'r' , encoding = "gbk" ) . readlines ( ) ]
# 读取停止词,生成list
data = [ d for d in data if d not in stopwords ]
# 剔除 停止词
 
c = dict . fromkeys ( data , 0 )
 
# 构造构造字典,并且默认值为0
 
for x in data :
     c [ x ] += 1
# 统计频次
 
newc = sorted ( c . items ( ) , key = lambda x : x [ 1 ] , reverse = True )
# 进行高频词排序
 
print ( newc )
 
 
# In[ ]:

源码 以及 停止词 已放到 github上

https://github.com/huahuizi/python_get_word




  • zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值