spider(一) 什么是spider?

  spider:官方解释是蜘蛛,当然我不是个昆虫爱好者,对蜘蛛也没什么了解,我们这里自然也不会去讨论蜘蛛。好吧,言归正传,我们这里需要讨论一种叫做爬虫的技术,废话又来了,爬虫有什么技术?我们来看看google是怎么工作的吧,看完以后我想你应该对爬虫会有一定的了解的。

  看到了没,这里我们把爬虫称作网络蜘蛛,网络蜘蛛==网络爬虫,如果你对上图当中的索引,搜索不是很了解的话,没关系,你可以去看huangfox的博客,在那里你应该可以看到什么是索引。在这里你只需要知道爬虫是用来从浩瀚的网络资源当中抓去数据的,其他的无需多知道。

  好了,你现在感官上你知道爬虫是干嘛的了吧,爬虫的能力远远没有你想的那么简单,全世界有几十亿,上百亿的网络资源,这些资源靠人是无法收集完整的,这时候网络爬虫的作用就尤为明显。

  我们都知道,我们用浏览器可以看到很多网络资源,爬虫就也可以通过HTTP协议(前面笔者也做了简单的介绍)获得我们所能接触到的所有网络资源。

  到这里,我们只需要知道爬虫是用来爬取网络数据的就够了,其他的会在后面的分享当中给大家做描述。

转载于:https://www.cnblogs.com/foolfish/archive/2010/10/19/1855829.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值