网络爬虫

互联网虽然复杂,本质上只是一个一个网页罢了。把网页当做一个个节点,把那些网址当做一条条到达节点的路线,点击链接,就是通过这条路线到达对应的目的地(节点)。通过超链接任何一个网页出发,用遍历的方法,自动将访问过的网页保存起来,拥有这样功能的程序就是网络爬虫。
世界上第一个网络爬虫是麻省理工学院的学生Matthew Gray在1993年完成的。他给自己的程序起名叫做“互联网漫游者”。通过这个名字我们就知道这个程序的功能了。
网络爬虫如何工作呢?首先从一个门户网站首页开始,通过找到这个网页中所有的超链接,访问,下载和分析这些网页,再找到这些网页中所有的超链接。。。。以此类推就能下载整个互联网的网页。同时要记录那些网站已经访问过了,避免重复下载。一般这些信息都是用“哈希表”来记录的。
网页的数量如此庞大以至于需要几千甚至几万台服务器,通过高速网络连接起来,才可以建立起一个商业的网络爬虫。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值