爬虫原理和网页构造

最新推荐文章于 2022-05-17 08:53:22 发布

rongDang

最新推荐文章于 2022-05-17 08:53:22 发布

阅读量1.1k

点赞数

分类专栏： python爬虫

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章参照从零开始学python网络爬虫所写，本人也是刚刚接触爬虫

网络连接

网络连接像是在自助饮料售货机上购买饮料一样：购买者只需选择所需饮料，投入硬币，自助饮料售货机就会弹出相应的商品。网络连接也正是如此，如下图所示，本机电脑（购买者）带着请求头和消息体（硬币和所需饮料）向服务器（自助饮料售货机）发起一次Requests请求（购买），相应的服务器（自助饮料售货机）会返回本机电脑相应的HTML文件作为Response（相应的商品）。

网络连接原理图

爬虫原理

网络连接需要电脑的一次Requests请求和服务器端的Response回响，爬虫需要做的也是两件事：

（1）模拟电脑对服务器发起Requests请求。

（1）接收服务器端的Response的内容并解析提取响应中自己所需要的信息

但是网上的网页错综复杂，一次的请求和回应不能够批量获取网页的数据，这时需要设计爬虫的流程，这里主要介绍两种爬虫所需的流程：多页面和跨页面爬虫流程。（如下图）

多页面网页爬虫流程跨页面网页爬虫流程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫原理和网页构造

文章参照从零开始学python网络爬虫所写，本人也是刚刚接触爬虫网络连接网络连接像是在自助饮料售货机上购买饮料一样：购买者只需选择所需饮料，投入硬币，自助饮料售货机就会弹出相应的商品。网络连接也正是如此，如下图所示，本机电脑（购买者）带着请求头和消息体（硬币和所需饮料）向服务器（自助饮料售货机）发起一次Requests请求（购买），相应的服务器（自助饮料售货机）会返回本机电脑相应的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。