搜索引擎之网络爬虫-让我们更了解互联网

[b]网络爬虫[/b],又有名称spider,crawler,网络蜘蛛等名称(下文中采用spider说明)
记得自己学java时的第一个规模稍大的程序就是爬虫系统,从此迈开了搜索引擎学习的第一步。
当时使用的是Heritrix,加上有一本书《网络机器人Java编程指南》,环境使用的是eclipse2.1版本。
(一)互联网资源结构分析:
我们知道互联网资源对应唯一的url,而资源之间通过链接的方式进行关联的,这样互联网上的资源会组织起一张庞大的资源网。给定某网址,展现给访问者的是资源的集合,除html页面本身外,html代码中还包含引用的图片资源,javascript,css资源。
刚开发出来的网站没有外部链接指向该网站,访问该网站的唯一方式是在浏览器中输入网站地址。
目前比较流行的SNS系统,其实就是将人物信息作为资源搬到网络上,并借助人与人之间的关系建立起庞大的人物信息网络,让你想逃都逃不掉。

(二)浏览器是如何解析资源并进行展示的呢?
准备:当在浏览器中输入一个url时,并按回车;
执行步骤,
1. 浏览器获取url所对应资源的源代码(html源代码)
2. 提取url中附加资源列表(js,css,图片等);
3. 采用并行的方式获取各种资源;
4. 浏览器解析附加资源列表,并进行解析。
5. 页面定位和渲染。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值