利用jieba进行中文分词并进行词频统计

本文介绍了如何在Python中使用jieba库进行中文分词,包括基本分词模式、全分词模式和去除标点数字。同时,文章详细讲解了如何进行词频统计,并探讨了添加自定义分词规则的方法,例如对特定词语的分词偏好设置。
摘要由CSDN通过智能技术生成

1.安装jieba库

在windows的Anaconda环境下如果没有设置环境变量,则从Dos命令先进入...\Anaconda3\Scripts 目录中,然后运行以下命令即可:

pip install jieba

2.分词示例

我们先用一段文本来进行分词并做词频统计:

央视网消息:当地时间11日,美国国会参议院以88票对11票的结果通过了一项动议,允许国会“在总统以国家安全为由决定征收关税时”发挥一定的限制作用。这项动议主要针对加征钢铝关税的232调查,目前尚不具有约束力。动议的主要发起者——共和党参议员鲍勃·科克说,11日的投票只是一小步,他会继续推动进行有约束力的投票。

可以看到,这段文本当中还包含了很多标点符号和数字,显然这不是我们想要的,所以在分词的时候要去掉这些。

2.1 普通分词模式

import jieba
import re
cut_words=[]
for line in open('./text1.txt',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]", "", line)
    seg_list=jieba.cut(line,cut_all=False)
    cut_words.append(" ".join(seg_list))
print(cut_words)


>> 结果

['央视网 消息 当地 时间 日 美国国会参议院 以票 对票 的 结果 通过 了 
一项 动议 允许 国会 在 总统 以 国家 安全 为 由 决定 征收 关税 时 发挥 
一定 的 限制 作用 这项 动议 主要 针对 加征 钢铝 关税 的 调查 目前 尚 
不 具有 约束力 动议 的 主要 发起者 共和党 参议员 鲍勃 科克 说 日 的 
投票 只是 一 小步 他会 继续 推动 进行 有 约束力 的 投票']

2.1 全分词模式

import jieba
import re
cut_words=[]
for line in
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值