div 标签放在页面最下_简单的爬虫原理与页面构造讲解，让你对爬虫有个清晰的认识...

最新推荐文章于 2023-01-03 20:34:37 发布

一只丧椒

最新推荐文章于 2023-01-03 20:34:37 发布

阅读量240

点赞数

文章标签： div 标签放在页面最下

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31421601/article/details/113057266

版权

本文介绍了网络连接的比喻以及GET和POST请求的概念，深入讲解了爬虫的工作原理，包括模拟请求和解析响应内容。同时，文章还探讨了多页面和跨页面爬虫的实现流程，并详细阐述了HTML页面的结构，如父节点、子节点和兄弟节点的关系。通过F12开发者工具，读者可以更直观地理解网页的构造。

摘要由CSDN通过智能技术生成

爬虫原理

1. 网络连接

网络连接就像在火车站买票一样：旅客选择好目的地，投入硬(纸)币或者刷卡，售票机就会给我们一张带有列车信息的车票。

计算机(乘客)带着请求头和消息体(目的地，车次等信息)向服务器(售票机)发起一次请求(购买车票)，相应的服务器(售票机)会返回给计算机相应的HTML文件作为Response(相应的车票)。

这里是一个GET请求。我们常见的还有POST请求。

2. 爬虫原理

在了解了网络连接的基本原理后，爬虫原理就好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫同样也需要做两件事：

模拟计算机对服务器发起Request请求。
接收服务器的Response内容并分析其内容，提取出来。

但是我们要获取的信息通常不是只在一个页面上，这时就需要设计一个爬虫的执行流程。我们常用的有两种：

1. 多页面爬虫流程

通常这样的网站有很多页面，且每个页面的构造都类似。因此，可以使用如下流程：

手动翻页并观察各网页的URL构成特点，构造出所有的页面URL保存到列表中。
根据URL列表依次循环取出URL
循环调用爬虫函数，存储数据。
循环结束，爬虫运行结束。

2. 跨页面爬虫流程

定义爬取函数爬取列表(目录)的所有专题的URL。
将专题URL存入列表中(种子URL)。
定义爬取详细页数据函数。
进入专题详细页面爬取详细页数据。
存储数据，循环完毕，爬虫结束。

页面构造

1. HTML语言

我们常说的网页大部分都是用HTML语言来写的。HTML是按层级规定所属关系。

上面的段代码，就是HTML代码了。
我们通常称

这样的代码为标签，即这是一个 DIV标签。

我们称DIV标签是table标签的父节点
称tr标签是table标签的子节点
称tr标签为div标签的孙节点
称两个tr的关系为兄弟节点

2. 查询网信息

我们在打开要爬取的目标网站，然后通过F12快捷键即可看到如下页面：

在这里我们可以很方便的查看目标网站的页面构成。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
div 标签放在页面最下_简单的爬虫原理与页面构造讲解，让你对爬虫有个清晰的认识...

爬虫原理1. 网络连接网络连接就像在火车站买票一样：旅客选择好目的地，投入硬(纸)币或者刷卡，售票机就会给我们一张带有列车信息的车票。计算机(乘客)带着请求头和消息体(目的地，车次等信息)向服务器(售票机)发起一次请求(购买车票)，相应的服务器(售票机)会返回给计算机相应的HTML文件作为Response(相应的车票)。这里是一个GET请求。我们常见的还有POST请求。2. 爬虫原理在了解了网络连...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。