对于文本处理来说,好的分词结果,是一切开始的基础。下面结合我的使用,简要说说使用jieba分词,如何添加、删除自定义词,以及使用停用词表,方便自己以后查阅。
1 维护自定义词
1.1 添加自定义词
方法一:
import jieba
jieba.add_word("自定义词1")
jieba.add_word("自定义词2")
方法二:
方法一需要我们手动一个个添加,当自定义词较多时,我们可以用下面的方法:
import jieba
jieba.load_userdict(file_name)
其中, file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频