1.什么是爬虫?爬虫能干什么?
爬虫又称为网络爬虫。可以按照指定的规则爬取网络上的信息。
2.网络爬虫的分类:
通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
深层网络爬虫等类型
3.深层网络爬虫
深层网络爬虫主要通过6个基本功能的模块和2个爬虫内部数据结构
6个基本功能的模块:
爬行控制器
解析器
表单分析器
表单处理器
响应分析器
LVS控制器
2个爬虫内部数据结构:
URL列表
LVS表 (表示标签/数值集合),用来填充表单的数据源
4.网络爬虫的基本原理
工作流程:
①获取初始的URL,该URL地址是用户自己制定的厨师爬取的网页
②爬取对应URL地址的网页时,获取新的URL地址
③将新的URL地址放入URL队列中
④从URL队列中读取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程。
⑤设置停止条件,如果没有位置停止条件时,爬虫会一直爬取下去,知道无法获取新的URL地址为止,设置了停止条件后,爬虫将会在满足停止条件时停止爬取
流程图: