爬虫 1 大致流程

最新推荐文章于 2024-01-19 10:44:00 发布

Cupcake_JackY

最新推荐文章于 2024-01-19 10:44:00 发布

阅读量929

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41173093/article/details/109299376

版权

一般来说，爬虫大致分为几个流程：
1. 准备工作
2. 获取数据
3. 解析内容
4. 保存数据

爬虫的本质，其实就是让脚本程序模拟认为操作，通过浏览器去访问网页（网站），对于网站服务器来说，人为的通过浏览器访问和通过脚本程序爬虫没有太大区别（反爬虫这些我还没学，所以这里可能说的有点笼统，这里只是说说我目前的理解）。不过不同的是，人为访问网页，获取的是一个网页（人眼看到的页面）；而脚本获取的信息，是整个页面的源码（chrom浏览器按f12），可以对这些信息进行更加细致的分析。

这篇博客先来说说准备工作包含的大致工作：
1. URL分析。即发现所爬取网页链接的规律，比如下面这个例子：

在这里插入图片描述

2. 浏览器给服务器发送信息（浏览器f12->Network->Headers）格式分析
User-Agent（浏览器的身份）：
简单的爬虫中，必须掌握User-Agent的语义和格式（这个信息体现了用户所用的浏览器版本信息），如下图所示：
在这里插入图片描述

cookie（登录的身份）：
学会如何存储、读取cookie。
如果想爬取登录之后才能看到的网页信息，就必须学会操作cookie。
在这里插入图片描述

在获取这些信息后，需要进行分析，不过多数情况下不需要人为编写细致的代码进行分析，python有很多与爬虫网页分析有关的库，可以直接用，非常方便（突然回想起学C的日子，什么都得自己写，hhh）。

小知识点：
python程序可以设置一个入口，也就是整个程序第一个执行的语句，也就是执行的起点，这样可以让我们的程序结构和执行顺序更加清晰。下面这句话就是程序的入口：
在这里插入图片描述

爬虫需要的主要的包如下图所示：

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫 1 大致流程

一般来说，爬虫大致分为几个流程：1. 准备工作2. 获取数据3. 解析内容4. 保存数据爬虫的本质，其实就是让脚本程序模拟认为操作，通过浏览器去访问网页（网站），对于网站服务器来说，人为的通过浏览器访问和通过脚本程序爬虫没有太大区别（反爬虫这些我还没学，所以这里可能说的有点笼统，这里只是说说我目前的理解）。不过不同的是，人为访问网页，获取的是一个网页（人眼看到的页面）；而脚本获取的信息，是整个页面的源码（chrom浏览器按f12），可以对这些信息进行更加细致的分析。这篇博客先来说说准备工作包含的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。