利用jieba进行中文分词并进行词频统计

最新推荐文章于 2024-08-02 16:55:49 发布

空字符（公众号：月来客栈）

最新推荐文章于 2024-08-02 16:55:49 发布

阅读量3.6w

点赞数 24

分类专栏：数据预处理

本文链接：https://blog.csdn.net/The_lastest/article/details/81027387

版权

本文介绍了如何在Python中使用jieba库进行中文分词，包括基本分词模式、全分词模式和去除标点数字。同时，文章详细讲解了如何进行词频统计，并探讨了添加自定义分词规则的方法，例如对特定词语的分词偏好设置。

摘要由CSDN通过智能技术生成

1.安装jieba库

在windows的Anaconda环境下如果没有设置环境变量，则从Dos命令先进入...\Anaconda3\Scripts 目录中，然后运行以下命令即可：

pip install jieba

2.分词示例

我们先用一段文本来进行分词并做词频统计：

央视网消息：当地时间11日，美国国会参议院以88票对11票的结果通过了一项动议，允许国会“在总统以国家安全为由决定征收关税时”发挥一定的限制作用。这项动议主要针对加征钢铝关税的232调查，目前尚不具有约束力。动议的主要发起者——共和党参议员鲍勃·科克说，11日的投票只是一小步，他会继续推动进行有约束力的投票。

可以看到，这段文本当中还包含了很多标点符号和数字，显然这不是我们想要的，所以在分词的时候要去掉这些。

2.1 普通分词模式

import jieba
import re
cut_words=[]
for line in open('./text1.txt',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", line)
    seg_list=jieba.cut(line,cut_all=False)
    cut_words.append(" ".join(seg_list))
print(cut_words)


>> 结果

['央视网 消息 当地 时间 日 美国国会参议院 以票 对票 的 结果 通过 了 
一项 动议 允许 国会 在 总统 以 国家 安全 为 由 决定 征收 关税 时 发挥 
一定 的 限制 作用 这项 动议 主要 针对 加征 钢铝 关税 的 调查 目前 尚 
不 具有 约束力 动议 的 主要 发起者 共和党 参议员 鲍勃 科克 说 日 的 
投票 只是 一 小步 他会 继续 推动 进行 有 约束力 的 投票']

2.1 全分词模式

import jieba
import re
cut_words=[]
for line in

最低0.47元/天解锁文章

空字符（公众号：月来客栈）

关注

24
点赞
踩
204

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录