使用jieba维护自定义词、停用词表

对于文本处理来说,好的分词结果,是一切开始的基础。下面结合我的使用,简要说说使用jieba分词,如何添加、删除自定义词,以及使用停用词表,方便自己以后查阅。

1 维护自定义词

1.1 添加自定义词

方法一:

import jieba
jieba.add_word("自定义词1")
jieba.add_word("自定义词2")

方法二:

方法一需要我们手动一个个添加,当自定义词较多时,我们可以用下面的方法:

import jieba
jieba.load_userdict(file_name) 

其中, file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频

  • 2
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
获取停用词可以通过多种方式,例如从已有的语料库中提取常用词汇、手动整理、或者使用第三方的停用词。常用的第三方停用词包括NLTK、jieba等自然语言处理库中提供的停用词停用词过滤可以通过以下步骤实现: 1. 加载停用词,将停用词中的词汇存储到一个列或集合中。 2. 对文本进行分词,将分词结果存储到一个列中。 3. 遍历分词,将不在停用词中的词汇添加到一个新的列中。 4. 将新列中的词汇重新组合成一个字符串,即为已经过滤掉停用词的文本。 下面是一个简单的 Python 代码示例,演示如何使用jieba库实现停用词过滤: ```python import jieba jieba.load_userdict("user_dict.txt") # 加载自定义词典 stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()] # 加载停用词 text = "这是一个需要进行停用词过滤的文本。" seg_list = jieba.cut(text) filtered_text = [] for word in seg_list: if word not in stopwords: filtered_text.append(word) filtered_text = " ".join(filtered_text) print(filtered_text) ``` 其中,`user_dict.txt`是自定义词典文件,`stopwords.txt`是停用词文件。在代码中,首先加载了自定义词典和停用词,然后使用jieba库对文本进行分词,遍历分词结果,将不在停用词中的词汇添加到一个新的列中,最后将新列中的词汇重新组合成一个字符串,即为已经过滤掉停用词的文本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值