百度蜘蛛抓取网页过程详解

蜘蛛抓取第一步 爬行和抓取

 爬行到你的网站网页,寻找合适的资源。蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性。当蜘蛛来到你的网站之后,它就会顺着你网站中的链接(蜘蛛丝)不断的进行爬行,因此如何让蜘蛛能够更好的在你的网站中进行爬行就成为了我们的重中之重。抓取你的网页。引导蜘蛛的爬行这只是一个开始,一个好的开始意味着你将有一个高起点。通过自己的内链设计,使得网站中不存在任何死角,蜘蛛可以轻松的到达网站中的每一个页面,这样蜘蛛在进行第二步工作——抓取的时候,将会事半功倍。而在这一步抓取的过程中我们又需要注意的就是要精简网站的结构,将那些不必要、不需要的多余代码去掉,因为这些都将会影响蜘蛛抓取网页的效率与效果。另外还需要大家注意的事情就是通过我们都不建议网站中放入FLASH,因为蜘蛛对于FLASH是不好抓取的,过多的FLASH会导致蜘蛛放弃抓取你网站的页面。

蜘蛛抓取第二步 存储

抓取了链接所对应的页面,会把这些页面的内容存储到搜索引擎的原始数据库里面。会抓取一些文本内容。

网站在优化的时候不要盲目的给网站添加一些图片或者动画flash文件。这样不利搜索引擎的抓取。这类对排没有太大价值,应该多做内容。

抓取到搜索引擎原始数据中,不代表你的网站内容就一定会被百度采纳。搜索引擎还需要再进行下一步处理。

蜘蛛抓取第三步 预处理

 搜索引擎主要还是以(文字)为基础。JS,CSS程序代码是无法用于排名。蜘蛛将第一步中提取的文字进行拆分重组,组成新的单词。

去重处理(去掉一些重复的内容,搜索引擎数据库里面已经存在的内容)

要求我们在做SEO优化的人员在优化网站内容的不能完全抄袭别人的站点内容。

去掉停止词

停止词:的,得,地,啊,哈,呀,从而,以,,,,却等。减少无谓的计算 美丽的中国  美丽中国

 注意:要求我们在抄写别人内容的时候修改的力度要大,不能只是简单的修改一两个字,要求我们在优化的时候修改力度加大,写的跟别人不一样,主要是标题。

  消除噪音

你的网站挂了很多弹出广告,对于网站里面挂很多广告的网站,蜘蛛不会把你的网站当做重点来进行抓取。

我们在网站中不能随意添加弹出广告。

蜘蛛抓取第四步 建立索引

根据上面的预处理的结果,把页面关键密度合理处理,内容匹配高的,反向链接多,导出链接少页面进行排序建立索引数据库。

Site:查询的一个参考值,不是网站的全部索引量。(百度站长工具-索引量)对于新站百度一般会一个月考核期,抓取的网站放在百度索引库没有释放出来。

蜘蛛抓取第五步 排名

搜索引擎经过搜索词处理,文件匹配,相关性计算,过滤调整,排名显示等一系列复杂工作完成最终的排名。

匹配度最高的,流量最大的,权重最高这样的站点进行优先展现。收录-排名-点击量-转换量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值