jieba库的使用-CSDN博客

本文链接：https://blog.csdn.net/weixin_42764266/article/details/104595379

jieba是Python中的一个优秀中文分词库，提供了精确、全和搜索引擎三种分词模式。安装jieba库只需`pip install jieba`。通过`jieba.lcut()`等函数，可以方便地进行分词操作，并能添加自定义词组。在实际应用中，可能需要针对特定情况优化分词结果。

摘要由CSDN通过智能技术生成

jieba是优秀的中文分词第三方库

（cmd命令行）pip install jieba

jieba.lcut(s)★ —— 精确模式，返回一个列表类型的分词结果

>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")

['中国', '是', '一个', '伟大', '的', '国家']

jieba.lcut(s, cut_all=True) —— 全模式，返回一个列表类型的结果，存在冗余

>>> jieba.lcut("中国是一个伟大的国家", cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut_for_search(s) —— 搜索引擎模式，返回一个列表类型的分词结果，存在冗余

>>> jieba.lcut_for_search("中华人民共和国是最伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '最', '伟大', '的']

词频统计实例：
英文文本——《哈姆雷特（英文版）》
要点：文本去噪归一化、使用字典表示词频

def getText():
    txt = open("hamlet.txt", "r"