最近在研究自然语言处理,最基础的内容之一是分词处理,但是分词的结果并非均是有效的信息,按照普遍说法,存在‘停用词’这样的尴尬信息。
所谓‘停用词’,即是在自然语言处理时,与文章包含的情感信息,或文章主题信息关系性不强的词语,所以如果进行筛选过滤之后,更便于主题分析,或者情感分析。
这里,我在网上找到了:结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,
并整理了一下,做了去重处理,最终得到了一份较全的停用词表,在此分享出来给大家,希望对各位有用。
整合的停用词表下载
后续可能即需更新其他相关文章,逐步积累,哈哈。