网页内容抗排重的几种方式

本来呢,这个应该是不传之秘的,不信到google/baidu去搜搜看,"内容/页面/网页 抗排重"看有没有结果。

不过我基于一个信念,那就是但凡你想得到的,google都能搜得到,如果搜不到呢,那我就把它加上,让google可以搜到。

什么叫做抗排重呢,我们知道,许多网页的内容都是重复的,搜索引擎如果搜到的大篇大篇都是重复内容,自然没人去用了。所以在业界,剔除这些重复内容,通常我们叫做排重,也有叫"消重"的。

这个世界上,有矛就有盾,所以就有了抗排重这么一说。

现在的网页内容排重基本上都是基于信息指纹摘要来做的,这种做法可以保证完全相同的网页,一定能判断出它们重复,但是不完全相同的网页,可能有误判。

大致是:先去除噪声,即页面中的无关紧要的tag,广告,只留下正文内容(具体什么算正文,算法说了算)。然后对正文进行分词,分词完后,去除高频词(事先会有一个高频词表),剩下的结果按照词频排序,组成这样的串,如:

内容10重复8噪声1......

然后从中按一定规则取一部分或者全部,做一个hash摘要。以后每碰到一个网页,就按此法取摘要值,和已有的进行对比,据此判断是否重复。

下面我引用一段别人总结的抗排重方法:

方法一:拆分法

把原有连续的文章,平均的截取成为2段3段或是更多。

好处:降低相似度、提高访问者浏览的速度、增加页面访问量

缺点:文章无法连续浏览,原有的一次性浏览变得繁琐,同时对Title标题的优化也有一定的不利,因为会有重复。不过数量较小的情况下不会有什么大碍。
 
方法二:跟随法

把每一个段落的结尾都增加一段话,可以是有情提示,小调查,或是其他文章的推荐。

好处:进一步降低相似度,给可以更多讯息,提供更多使用的功能,例如"回到最上面"。

缺点:使用不当将降低用户体验,如果使用JAVASCEIPT等作有可能影响页面加载速度,干扰客户浏览主线。

方法三:标签法

在特定的关键字后增加友情注释。例如:我们所倡导的SEO(SEO相关信息)思想是......

好处:增加用户体验,让客户可以了解更多并不熟悉的专业名词,从而更好理解文章含义。 还可以自然的重复关键字,增加关键字密度。

缺点:如果使用过多,会造成页面信息繁乱,降低用户体验。增加页面体积,降低加载速度。干扰原有关键词布局和密度。
 
方法四:隐身法

将一些没有实际用处的词使用图片代替,经过优化的GIF图片只有十几个字节,将文章中出现的部分特定字或词进行隐身,也可以很好的达到降低页面相似度的效果。

优点:不干扰关键词布局、不干扰用户体验、不影响浏览和加载速度、有效防止被采集。

缺点:仅仅增加少许加载时间,但几乎可以省略不计。

这些方法呢,我没怎么用过,它们不是太麻烦自己就是太麻烦用户,但是我从排重算法本身的缺点总结了一种方法,可谓万能抗排重法,既让用户用的很爽,自己实现也很轻松,还让搜索引擎摸不着头脑。

今天写累了,改天有空接着写。

注:此文重要目的在于让抗排重几个字能在google搜到,并非为了普及垃圾站建站知识。所以读者不要当真,真有这么好方法我自己留着。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值