搜索引擎之网络爬虫-让我们更了解互联网

uuchi

于 2011-03-07 16:49:06 发布

阅读量140

点赞数

文章标签：互联网搜索引擎浏览器 CSS SNS

[b]网络爬虫[/b]，又有名称spider，crawler，网络蜘蛛等名称(下文中采用spider说明)
记得自己学java时的第一个规模稍大的程序就是爬虫系统，从此迈开了搜索引擎学习的第一步。
当时使用的是Heritrix，加上有一本书《网络机器人Java编程指南》,环境使用的是eclipse2.1版本。
（一）互联网资源结构分析：
我们知道互联网资源对应唯一的url，而资源之间通过链接的方式进行关联的，这样互联网上的资源会组织起一张庞大的资源网。给定某网址，展现给访问者的是资源的集合，除html页面本身外，html代码中还包含引用的图片资源，javascript，css资源。
刚开发出来的网站没有外部链接指向该网站，访问该网站的唯一方式是在浏览器中输入网站地址。
目前比较流行的SNS系统，其实就是将人物信息作为资源搬到网络上，并借助人与人之间的关系建立起庞大的人物信息网络，让你想逃都逃不掉。

（二）浏览器是如何解析资源并进行展示的呢？
准备：当在浏览器中输入一个url时，并按回车；
执行步骤,
1. 浏览器获取url所对应资源的源代码（html源代码）
2. 提取url中附加资源列表（js，css，图片等）；
3. 采用并行的方式获取各种资源；
4. 浏览器解析附加资源列表，并进行解析。
5. 页面定位和渲染。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎之网络爬虫-让我们更了解互联网

[b]网络爬虫[/b]，又有名称spider，crawler，网络蜘蛛等名称(下文中采用spider说明)记得自己学java时的第一个规模稍大的程序就是爬虫系统，从此迈开了搜索引擎学习的第一步。当时使用的是Heritrix，加上有一本书《网络机器人Java编程指南》,环境使用的是eclipse2.1版本。（一）互联网资源结构分析：我们知道互联网资源对应唯一的url，而资源之间通过链...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。