爬虫学习者必须要懂的爬虫原理与页面构造

点击上方 AI派 ”, 选择“ 设为星标 最新分享,第一时间送达! 640?wx_fmt=gif

作者:Tango,目前就职在一家对日开发的的IT服务公司。不是科班出身的我,出于对编程的热爱,自学了软件开发。从此深深陷入在代码的世界而无法自拔。

编辑:王老湿

《从零开始学爬 专栏已经发布了第一篇 想学爬虫但不会?那就先跟着我来学习下Python吧!,今天要带来的是第二篇,主要讲解爬虫的原理以及页面构造。
 
 

爬虫原理

1. 网络连接

网络连接就像在火车站买票一样:旅客选择好目的地,投入硬(纸)币或者刷卡,售票机就会给我们一直带有列车信息的车票。

计算机(乘客)带着请求头消息体(目的地,车次等信息)向服务器(售票机)发起一次请求(购买车票),相应的服务器(售票机)会返回给计算机相应的HTML文件作为Response(相应的车票)。

这里是一个GET请求。我们常见的还有POST请求。

640?wx_fmt=jpeg

2. 爬虫原理

在了解了网络连接的基本原理后,爬虫原理就好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫也需要做两件事:

但是我们要获取的信息通常不是只在一个页面上,这时就需要设计一个爬虫的执行流程。我们常用的有两种:

1. 多页面爬虫流程

通常这样的网站有很多页面,且每个页面的构造都类似。因此,可以使用如下流程:

640?wx_fmt=png

2. 跨页面爬虫流程

页面构造

1. 推荐使用谷歌浏览器

2. 页面构造

1. HTML语言

我们常说的网页大部分都是用HTML语言来写的。HTML是按层级规定所属关系。

<html><head>    这部分页面都是定义网页样式和js</head><body>    <div>        <table>            <tr>                <td>                </td>            </tr>             <tr>                <td>                </td>            </tr>        </table>    </div></body></html>
<head>
    这部分页面都是定义网页样式和js

</head>
<body>
    <div>
        <table>
            <tr>
                <td>
                </td>
            </tr>
             <tr>
                <td>
                </td>
            </tr>
        </table>
    </div>
</body>
</html>

上面的段代码,就是HTML代码了。
我们通常称<div>这样的代码为标签,即这是一个DIV标签

  • 我们称DIV标签是table标签的父节点

  • 称tr标签是table标签的子节点

  • 称tr标签为div标签的孙节点

  • 称两个tr的关系为兄弟节点

我们这里由于篇幅原因暂不对前端知识做更深入的说明了。我们会在实际项目中和大家慢慢分享相关的知识点。欢迎大家持续关注本专栏。

2. 查询网信息

我们在打开要爬取的目标网站,然后通过F12快捷键即可看到如下页面。

640?wx_fmt=png

在这里我们可以很方便的查看目标网站的页面构成。

好了,本期的内容就是这些了,大家有什么好玩的网站可以加群,我们一起研究一下。

学习交流

为了方便大家更好地与作者进行沟通交流,为此王老湿针对这个专栏成立了微信读者交流群,我会邀请专栏的作者坐镇交流群,大家想近距离与作者沟通,都可以来加入。


加入方式:扫描下方王老湿的微信二维码,添加微信,王老湿来邀请你加入交流群。


由于后续会有多个专栏发布,为了避免加错交流群,所以想要加入这个专栏的交流群时一定要备注:爬虫

640?wx_fmt=jpeg




/ 今日赠送书籍 /


之后打算每天都赠送一本书籍给大家,获取方式为 混脸熟根据下面的 今日留言主题 去用心留言,我从最脸熟的读者中选出一位来赠送),留言的位置为AI派公众号当天发布文章的 头条或者次条,很多人不理解什么是头条和次条,我来以今天的发布的文章来解释下。

640?wx_fmt=jpeg


今天我们就是在“ 次条”留言来获取书籍的,今天的书籍为《从零开始学Python网络爬虫》。
640?wx_fmt=jpeg

  内容简介:

Python是数据分析的首*语言,而网络中的数据和信息很多,如何从中获取需要的数据和信息呢?简单、直接的方法就是用爬虫技术来解决。


本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容,而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用,讲解时穿插了22个爬虫实战案例,可以大大提高读者的实际动手能力。

?↑↑扫描上方二维码可购买



恭喜上期通过留言成功混脸熟的读者:冰凉,赠送一本《从零开始学Python网络爬虫》

请该同学联系小编:wanglaoshi201908


640?wx_fmt=jpeg

/ 今日留言主题 /

你是如何接触到爬虫的呢?


近期专栏推荐


1. 算法原理稳如狗,工程落地慌得很!AI炼丹炉实践指南来啦~

2. 从0到1,数据分析师修炼之路

3. "王老湿,我。。我想学那个。。爬虫。可以嘛"

4. 想学机器学习吗?带坑的那种


640?wx_fmt=png


点下「在看」,给文章盖个戳吧! ?
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值