爬虫学习者必须要懂的爬虫原理与页面构造

最新推荐文章于 2022-08-01 19:14:00 发布

Wang_AI

最新推荐文章于 2022-08-01 19:14:00 发布

阅读量327

点赞数 1

本文链接：https://blog.csdn.net/Xw_Classmate/article/details/99265720

版权

点击上方 “AI派 ”，选择“ 设为星标 ” 最新分享，第一时间送达！ 640?wx_fmt=gif

作者：Tango，目前就职在一家对日开发的的IT服务公司。不是科班出身的我，出于对编程的热爱，自学了软件开发。从此深深陷入在代码的世界而无法自拔。

编辑：王老湿

《从零开始学爬虫》 专栏已经发布了第一篇 想学爬虫但不会？那就先跟着我来学习下Python吧！，今天要带来的是第二篇，主要讲解爬虫的原理以及页面构造。

爬虫原理

1. 网络连接

网络连接就像在火车站买票一样：旅客选择好目的地，投入硬（纸）币或者刷卡，售票机就会给我们一直带有列车信息的车票。

计算机(乘客)带着请求头和消息体（目的地，车次等信息）向服务器(售票机)发起一次请求（购买车票），相应的服务器（售票机）会返回给计算机相应的HTML文件作为Response(相应的车票)。

这里是一个GET请求。我们常见的还有POST请求。

2. 爬虫原理

在了解了网络连接的基本原理后，爬虫原理就好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫也需要做两件事：

但是我们要获取的信息通常不是只在一个页面上，这时就需要设计一个爬虫的执行流程。我们常用的有两种：

1. 多页面爬虫流程

通常这样的网站有很多页面，且每个页面的构造都类似。因此，可以使用如下流程：

640?wx_fmt=png

2. 跨页面爬虫流程

页面构造

1. 推荐使用谷歌浏览器

2. 页面构造

1. HTML语言

我们常说的网页大部分都是用HTML语言来写的。HTML是按层级规定所属关系。

<html><head>    这部分页面都是定义网页样式和js</head><body>    <div>        <table>            <tr>                <td>                </td>            </tr>             <tr>                <td>                </td>            </tr>        </table>    </div></body></html>
<head>
    这部分页面都是定义网页样式和js

</head>
<body>
    <div>
        <table>
            <tr>
                <td>
                </td>
            </tr>
             <tr>
                <td>
                </td>
            </tr>
        </table>
    </div>
</body>
</html>

上面的段代码，就是HTML代码了。
我们通常称<div>这样的代码为标签，即这是一个DIV标签。

我们称DIV标签是table标签的父节点
称tr标签是table标签的子节点
称tr标签为div标签的孙节点
称两个tr的关系为兄弟节点

我们这里由于篇幅原因暂不对前端知识做更深入的说明了。我们会在实际项目中和大家慢慢分享相关的知识点。欢迎大家持续关注本专栏。

2. 查询网信息

我们在打开要爬取的目标网站，然后通过F12快捷键即可看到如下页面。

在这里我们可以很方便的查看目标网站的页面构成。

好了，本期的内容就是这些了，大家有什么好玩的网站可以加群，我们一起研究一下。

学习交流

为了方便大家更好地与作者进行沟通交流，为此王老湿针对这个专栏成立了微信读者交流群，我会邀请专栏的作者坐镇交流群，大家想近距离与作者沟通，都可以来加入。

加入方式：扫描下方王老湿的微信二维码，添加微信，王老湿来邀请你加入交流群。

由于后续会有多个专栏发布，为了避免加错交流群，所以想要加入这个专栏的交流群时一定要备注：爬虫。

640?wx_fmt=jpeg

/ 今日赠送书籍 /

之后打算每天都赠送一本书籍给大家，获取方式为 混脸熟（ 根据下面的 今日留言主题 去用心留言，我从最脸熟的读者中选出一位来赠送），留言的位置为AI派公众号当天发布文章的 头条或者次条，很多人不理解什么是头条和次条，我来以今天的发布的文章来解释下。

640?wx_fmt=jpeg

今天我们就是在“ 次条”留言来获取书籍的，今天的书籍为《从零开始学Python网络爬虫》。
640?wx_fmt=jpeg

内容简介：

Python是数据分析的首*语言，而网络中的数据和信息很多，如何从中获取需要的数据和信息呢？简单、直接的方法就是用爬虫技术来解决。

本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容，而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用，讲解时穿插了22个爬虫实战案例，可以大大提高读者的实际动手能力。

?↑↑扫描上方二维码可购买

恭喜上期通过留言成功混脸熟的读者：冰凉，赠送一本《从零开始学Python网络爬虫》

请该同学联系小编：wanglaoshi201908

640?wx_fmt=jpeg