初识网络爬虫

1.什么是爬虫?爬虫能干什么?
爬虫又称为网络爬虫。可以按照指定的规则爬取网络上的信息。

2.网络爬虫的分类:
通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
深层网络爬虫等类型

3.深层网络爬虫
深层网络爬虫主要通过6个基本功能的模块和2个爬虫内部数据结构
6个基本功能的模块:
爬行控制器
解析器
表单分析器
表单处理器
响应分析器
LVS控制器

2个爬虫内部数据结构
URL列表
LVS表 (表示标签/数值集合),用来填充表单的数据源

4.网络爬虫的基本原理
工作流程:
①获取初始的URL,该URL地址是用户自己制定的厨师爬取的网页
②爬取对应URL地址的网页时,获取新的URL地址
③将新的URL地址放入URL队列中
④从URL队列中读取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程。
⑤设置停止条件,如果没有位置停止条件时,爬虫会一直爬取下去,知道无法获取新的URL地址为止,设置了停止条件后,爬虫将会在满足停止条件时停止爬取

流程图:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值