自然语言处理_分词_停用词整理[哈工大、四川大学机器智能实验室停用词库、百度停用词库、中文停用词词表]

最近在研究自然语言处理,最基础的内容之一是分词处理,但是分词的结果并非均是有效的信息,按照普遍说法,存在‘停用词’这样的尴尬信息。

所谓‘停用词’,即是在自然语言处理时,与文章包含的情感信息,或文章主题信息关系性不强的词语,所以如果进行筛选过滤之后,更便于主题分析,或者情感分析。

这里,我在网上找到了:

结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,

并整理了一下,做了去重处理,最终得到了一份较全的停用词表,在此分享出来给大家,希望对各位有用。

整合的停用词表下载

后续可能即需更新其他相关文章,逐步积累,哈哈。

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值