全解搜索引擎工作原理-预处理

搜索引擎抓取的原始页面,并不能直接用于查询排名处理。因此抓取来的页面必须经过预处理,先了解收集页面的工作原理。收集完页面进行的是预处理,那么预处理是怎么工作的呢?让小编带你去领会一下它的神奇。
 
  搜索引擎预处理是在后台完成的,看不到整个过程,但他的步骤如下。
 
  1.提取文字
 
  页面是由HTML代码组成的,包含了大量的HTML格式代码、javaScript程序等用于排版内容所用。蜘蛛抓取还是文字,搜索引擎首先要做的就是从HTML文件中去除标签,提出可用页面文字。
 
  2.中文分词
 
  搜索引擎直接把抓取来的文字放在一起集合,一个句子中所有的字和词都连在一起的。搜索引擎需要分辨出哪些字可以组成词,那些字本身就是一个词。例如“年轻漂亮”可以分成“年轻”和“漂亮”两个词。
 
  3.去除重复页面
 
  搜索引擎还要对页面进行去除页面,去除“镜像页面”和“倾向页面”,有时同一篇文章出现在不同网站或同一个网站上,或相似的文章出现。搜索引擎并不喜欢这样重复的页面内容,也会断定页面质量差。所以作为SEO人员应多些原创文章。
 
  4.计算页面重要度
 
  搜索引擎计算页面的权重,网页权重的计算分为两种:1被指向链接处。2原创性。权重的等级是从0到10,权重值越高排名越高前。这是一项很复杂的计算。
 
  5.建立索引
 
  索引是建立关键词与页面之间的对应表,建立索引的最大好处在于可快速的获取对应的数据。页面到关键词,关键词到页面。
 
  6.提取链接
 
  根据页面中存在链接进行抓取。www.jzdbt.com
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值