搜索引擎过滤重复文章的相关知识

追踪文章原创的出处,消耗大,而且不准确。保留用户多的页面,使页面多次被检索到,对用户体验也是非常有利的,最先被收录的页面可以被认为是原创的页面。这样我们经常发现同一篇文章时间上被多次收录,是因为原创被保留,大平台的转发也被保留。
大家都知道在互联网中并不是所有的网页都是对用户有意义的,例如一些欺骗用户的网页,空白页面还有死链接等。这些网页对用户,搜索引擎,站长来说,都是没有价值的,所以搜索引擎会自动把这些页面进行过滤掉,减少了自身数据库的资源,还避免为用户和站长的网站带来不必要的麻烦。
一、页面消重
两个相似度非常高或者重复度文章,搜索引擎会去掉哪一个,保留哪一个呢?一般有三种情况:
1、保留最先被收录的页面,保护版权
2、保留用户多,曝光率较大的页面,使页面发挥更大的价值
3、保留原创对于搜索引擎来说,我们看到的现象2和3两种情况,页面消重,但是并不是绝对不允许重复收录,大家可以搜索一下还是有很多重复度文章的。
二、查重技术
搜索引擎判断两篇文章的相似度的方法有非常多。有的朋友(相信有很多这样的朋友),在伪原创的时候把一篇文章中去除使用频率高的词,比如我们,可能,但是等这样的词,去掉频率低的词,比如,东东,李白这样的词,在把然而代替但是,用咱俩代替我们,把对方的关键词代替成自己的。其实这些并不是搜索引擎查重的对象,不付出稍微高度成本伪原创是不行的,高质量的伪原创相当于对原文的修饰,更适合用户的阅读,也算是高质量的文章。
三、信息结构化
蜘蛛自动爬取程序从互联网下载页面资源添加到自己的网页库。这个页面的所有信息,包含图片,锚文本,正文等等信息,搜索引擎需要对网页信息结构化。获取网页中的,页面标题,锚文本,正文标题,正文。所以大家可以看出,一个网站的所有页面标题如果都是一样的有多么的可怕。
四、网页去重
并不是蜘蛛每抓取到一个新的页面就会添加到索引(收录),而是要考虑该页面有没有索引的价值,页面的重复度是影响这个被抓取过的页面要不要被索引的重要因素。比如说东东SEO博客的一篇文章,或者具有很高相似度的文章被多次收录,查询关键词时出来的搜索结果用户感兴趣的大部分的前5名,那么同一篇问斩收录爱多是浪费搜索引擎的数据库资源,而且也不能很好的维护原创,如果这样情况长期下去,那么就没有人愿意出原创的东西了,都去采集,搜索引擎将无法给用户提供最新满意的答案了
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值