1.安装jieba库
在windows的Anaconda环境下如果没有设置环境变量,则从Dos
命令先进入...\Anaconda3\Scripts
目录中,然后运行以下命令即可:
pip install jieba
2.分词示例
我们先用一段文本来进行分词并做词频统计:
央视网消息:当地时间11日,美国国会参议院以88票对11票的结果通过了一项动议,允许国会“在总统以国家安全为由决定征收关税时”发挥一定的限制作用。这项动议主要针对加征钢铝关税的232调查,目前尚不具有约束力。动议的主要发起者——共和党参议员鲍勃·科克说,11日的投票只是一小步,他会继续推动进行有约束力的投票。
可以看到,这段文本当中还包含了很多标点符号和数字,显然这不是我们想要的,所以在分词的时候要去掉这些。
2.1 普通分词模式
import jieba
import re
cut_words=[]
for line in open('./text1.txt',encoding='utf-8'):
line.strip('\n')
line = re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]", "", line)
seg_list=jieba.cut(line,cut_all=False)
cut_words.append(" ".join(seg_list))
print(cut_words)
>> 结果
['央视网 消息 当地 时间 日 美国国会参议院 以票 对票 的 结果 通过 了
一项 动议 允许 国会 在 总统 以 国家 安全 为 由 决定 征收 关税 时 发挥
一定 的 限制 作用 这项 动议 主要 针对 加征 钢铝 关税 的 调查 目前 尚
不 具有 约束力 动议 的 主要 发起者 共和党 参议员 鲍勃 科克 说 日 的
投票 只是 一 小步 他会 继续 推动 进行 有 约束力 的 投票']
2.1 全分词模式
import jieba
import re
cut_words=[]
for line in