爬虫简介
- 爬虫,就是网络爬虫,也称为网页蜘蛛、网络机器人、网络蚂蚁等,可以根据我们制定的规则自动的浏览互联网中的信息。
- 搜索引擎,就是爬虫的应用者,百度搜索引擎叫baiduspider,360的叫360spider…
为什么要学习爬虫
- 大数据时代,要进行数据分析,就需要数据源,而爬虫刚刚可以获取很多的数据源
- 熟练掌握爬虫技术十分有利于就业
爬虫的结构
爬虫主要由控制节点、爬虫节点、资源库组成。
- 控制节点:也称为爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行爬虫
- 爬虫节点:爬虫节点根据对应的算法,对网页进行爬取,爬取完毕后,将对应的结果存储到对应的资源库中
- 资源库:爬虫节点存储爬取结果的地方
控制节点和爬虫节点的关系
爬虫的类型
按照爬虫实现的技术和结构可以分为通用爬虫、聚焦爬虫、增量式爬虫、深层爬虫等类型;在实际运用中,常是这几类的结合体
名称 | 特点 |
---|---|
通用爬虫 | 又称全网爬虫;通用爬虫的目标资源全在互联网中,通用爬虫爬取的目标数据巨大,范围广泛& |