jieba()
jieba.lcut(s) | 精确模式,返回一个列表类型的分词结果jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表类型的分词结果,存在冗余 在字符串中寻找所有分词的可能 jieba.lcut("中国是一个伟大的国家",cut_all=True) [ '中国', '国是', '一个', '伟大', '的', '国家'] |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型的分词结果,存在冗余 更倾向于寻找短词语 先进行精确模式,然后对其中的长词进一步的切分获得最终结果 jieba.lcut_for_search(“中华人民共和国是伟大的") ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的'] |
jieba.add_word(w) | 向分词词典中增加新词wjieba.add_word("伟大的国家") print(jieba.lcut("中国是一个伟大的国家")) 输出: ['中国', '是', '一个', '伟大的国家'] |