SEO优化中网页去重原理

最新推荐文章于 2024-07-21 14:31:22 发布

代陈军

最新推荐文章于 2024-07-21 14:31:22 发布

阅读量474

点赞数

分类专栏：行业动态文章标签：邦顺科技 SEO优化网站建设

本文链接：https://blog.csdn.net/bonsone/article/details/88792073

版权

行业动态专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在互联网发展越来越快的今天，同样的内容会发布在多个网站中，同样的一片文章也经常会被多家媒体进行报道，再加上很多的SEO优化专员不断的从网站进行内容的采集，造成搜索引擎上用户大量的重复内容和信息。然而当用户搜索某个关键词时，搜索引擎必定不想星现给用户的搜索结果都是相同的内容。抓取这些重复的网页，在一定意义上就是对搜索引擎自身资源的浪费，因此去除重复内容的网页也成了搜索引擎所面临的一大问题。
在一般的搜索引擎架构中，网页去重一般在搜索引擎蜘蛛抓取部分就存在了，去重步骤在整个搜索引擎架构中实施得越早，越可以节约后续处理系统的资源。搜索引擎般会对已经抓取过的重复页面进行归类处理，比如，判断某个站点是否包含大量的重复页面，或者该站点是否完全采集其他站点的内容等，以决定以后对该站点的抓取情况，或者决定是否直接屏蔽抓取。
去重的工作一般会在分词之后和索引之前进行（也有可能在分词之前），搜索引擎会在页面已经分出的关键词中，提取部分具有代表性的关键词，然后计算这些关键词的“指纹”。每一个玩也都会有个这样的特殊指纹，当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合的时候，那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。
实际工作中的搜索引擎，不及您使用分词步骤所分出的有意义的关键词，还会使用连续切割的方式提取关键词，并进行指纹计算，连续切割就是以单个字向后移动的方式进行切词，比如，“百度开始打击买卖链接”会被切割成“百度开”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算，参与是否是重复内容的对比。这只是搜索引擎识别重复网页的基本算法，还有很多其他对付重复网页的算法。

因此网络上流行的大部分伪原创工具，不是不能欺骗搜索引擎，就是把内容做的完全读不通，所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃部索引，而是会根据重复网页所在的网站的权重适当放宽索引标准，这样使得部分作弊者有机可乘，利用网站的高权重，大量采集其他站点的内容获得搜索流量。不过自2012年6月份以来，百度都多引擎多次升级算法，对采集重复信息，垃圾页面进行了多次重量级的打击。所以SEO在面对网站内容时，不应该再以伪原创的角度去建设，而需要以对用户有用的角度去建设，虽然后者的内容不一定全部是原创。一般如果网站权重没有大问题，都会得到健康的发展。
更多资讯，请关注邦顺科技官网：www.bonsone.com