爬虫原理和网页构造

文章参照  从零开始学python网络爬虫  所写,本人也是刚刚接触爬虫


网络连接

    网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币,自助饮料售货机就会弹出相应的商品。网络连接也正是如此,如下图所示,本机电脑(购买者)带着请求头和消息体(硬币和所需饮料)向服务器(自助饮料售货机)发起一次Requests请求(购买),相应的服务器(自助饮料售货机)会返回本机电脑相应的HTML文件作为Response(相应的商品)。


网络连接原理图



爬虫原理

    网络连接需要电脑的一次Requests请求和服务器端的Response回响,爬虫需要做的也是两件事:

                                (1)模拟电脑对服务器发起Requests请求。

                                (1)接收服务器端的Response的内容并解析提取响应中自己所需要的信息

    但是网上的网页错综复杂,一次的请求和回应不能够批量获取网页的数据,这时需要设计爬虫的流程,这里主要介绍两种爬虫所需的流程:多页面和跨页面爬虫流程。(如下图)


                            多页面网页爬虫流程                                                   跨页面网页爬虫流程                   

                      

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值