Jieba:高频词提取

1、高频词定义
高频词是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论热点。
高频词提取的干扰项:
1)标点符号
2)停用词:类似“的”,“是”,“了”等无意义的词。

2、实战之高频词提取(使用Jieba)
Github上高频词提取的代码

输出:
在这里插入图片描述
根据实战结果发现,诸如“的”,“,”,“。”,“了”等词占据很高的位置,而这类词对把控文章焦点并无太大意义。我们需要的是能够简要概括重点的词汇。常用的方法:自定义一个停用词典,当遇到这些词时,过滤掉。

整理常用的停用词(包括标点),按照每行一个写入到一个文件中。然后定义如下函数,用于过滤停用词:

def stop_words(path):
    '''
    停用词,过滤无意义的词
    :param path:
    :return:
    '''
    with open(path, encoding='UTF-8') as f:
        return [l.strip() for l in f]

输出:
在这里插入图片描述
这里的停用词典不是通用的,一般实践中需要根据自己的任务,定期更新维护。定制自己的领域词典,用以提升分词效果。Jieba提供了这样的功能,用户可以加载自定义词典:

jieba.load_userdict('./data/user_dict.utf8')

jieba要求用户词典格式为:
朝三暮四 3 i
大数据 5
汤姆 nz
公主坟
每一行为三个部分:词语、词频(可省)、词性(可省),用空格隔开,顺序不可颠倒。该词典文件需为utf8编码。

参考:《python自然语言处理实战 核心技术与算法》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值