在搜索引擎眼中,貌似不同的关键词,很可能是相同的,比如下面4个关键词:
周杰伦演唱会上海
周杰伦演唱会 上海
周杰伦上海演唱会
周杰伦上海的演唱会
经过分词,去除空白符及停止词,主体其实是一样的。但用一般的方法,很难对这样的关键词去重。
今天介绍一种SEO关键词去重方法,解决这个问题。思路是,将关键词去除空白符及停止词并分词,然后将分词之后的每个词数字化,然后将数值相加,得到关键词对应的数值。显然的,如果两个关键词对应的数值相同,说明这两个关键词是重复的。代码实现如下:
import hashlib,jieba
输出结果如下:
683221891786635452844523343366495723666
可以看到,4个关键词对应的数值是一样的,即是重复关键词,保留一个即可。
最后,附上停止词表,可以去https://github.com/goto456/stopwords下载。