网页去重(一)简介

网页去重(一)简介

             网页去重(一)简介

一、概念:

引用百度百科文献:

搜索引擎优化中,网站内部优化至关重要,其中网站内部还需要注意页面的重复。即:同一篇文章经常会重复出现在同一个网站的不同网址上。

搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了。虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就成为优化去重

去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词,去停止词,消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。

典型的指纹计算方法如MD5算法(信息摘要算法第五版)和Rabin指纹计算方法等。这类指纹算法的特点是,输入(特征关键词)有任何微小的变化,都会导致计算出的指纹有很大差距。

了解了搜索引擎的去重算法,SEO人员就应该知道简单地增加”“”“,调换段落顺序还有的甚至是直接将文字替换这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且所搜引擎的去重算法很可能不止于页面级别(页面权重),而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

                                                  --来自百度百科

二、 常用方法:

  1.最小编辑距离


2.TF*IDF 特征值

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值