词云中去重复的词_一种SEO关键词去重方法

在搜索引擎眼中,貌似不同的关键词,很可能是相同的,比如下面4个关键词:

周杰伦演唱会上海
周杰伦演唱会 上海
周杰伦上海演唱会
周杰伦上海的演唱会

经过分词,去除空白符及停止词,主体其实是一样的。但用一般的方法,很难对这样的关键词去重。

今天介绍一种SEO关键词去重方法,解决这个问题。思路是,将关键词去除空白符及停止词并分词,然后将分词之后的每个词数字化,然后将数值相加,得到关键词对应的数值。显然的,如果两个关键词对应的数值相同,说明这两个关键词是重复的。代码实现如下:

import hashlib,jieba

输出结果如下:

683221891786635452844523343366495723666

可以看到,4个关键词对应的数值是一样的,即是重复关键词,保留一个即可。

最后,附上停止词表,可以去https://github.com/goto456/stopwords下载。

964db912ac11123e64cca6760bad7ed6.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值