Python实用技术之爬虫基础！

最新推荐文章于 2024-11-15 23:33:54 发布

程序员面面

最新推荐文章于 2024-11-15 23:33:54 发布

阅读量1.7k

点赞数 1

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_78094861/article/details/132684355

版权

1，爬取什么数据

不能包含用户的个人信息、隐私或者他人的商业秘密
不能侵犯作者的著作权等其他受法律法规保护的内容

2，如何爬取得来的

严格遵守网站设置的robots协议，必须禁止侵入
严禁通过“隐瞒事实、虚构真相”的方式对数据进行访问
在规避反爬虫措施的同时,避免干扰被访问网站的正常运行

3，爬取之后如何使用

获取的数据不能替代数据来源方的原服务。

在如今的大数据时代，得数据者得天下的说法是毫不夸张的，现在的社会中，无处不充斥着数据的身影，各行各业中，数据都占据着及其重要的地位，这也就意味着，我们能爬取到的数据只能是人家允许我们看到的，如果人家不给我们看，即设置了一些阻碍去禁止我们爬取的时候，千万不要为了显示自己的能耐而去攻击人家，这是违法的。现在的数据已成为重要的生产要素与核心资源。

对于大众来说，爬虫是成本最低，最方便的数据获取方式，简单到只需要几行代码，数据就成为了囊中之物。但是，风险也高，也就是上面我所说的，**网络爬虫必须遵守法律法规。**国家已经颁布了大量相关法律，最近的像2021年6月刚颁布的数据安全法，不要试图挑战国家法律！任何组织、个人收集数据应当采取合法、正当的方式，不得窃取或者以其他非法方式获取数据。

一，Robots协议

1994年6月30日，经过搜索引擎研究人员和被爬取网站站长的协商，共同起草了第一-份“robots协议”成为搜索技术企业共同遵守的规范。

“Robots协议”更像是一个君子协议，无法阻挡未经许可的爬虫行为，更不能对数据进行实质性的保护。

所以呢，需要法律进一步约束网络参与者的行为。

二，从一个简单的请求开始

1，为什么要从一个简单的请求开始？

一个简单的请求是一个HTTP请求，那什么是HTTP呢？

2，爬虫就是模拟浏览器向服务器发送请求，然后从服务器返回的数据中，筛选目标数据。

因此，我们在学习爬虫之前，我们需要先了解请求与响应的这个过程。

3，

对于网站而言，一般都要部署一个网站服务器，主要功能就是存放网站文件和数据文件，响应用户请求，让用户能够浏览网页下载数据。因为服务器一般使用HTTP协议来与浏览器进行信息交流。因此，网站服务器也常被称为HTTP服务器。

对于互联网用户而言，使用的是web客户端，最常见的就是各类浏览器。我们仅需要输入网址，就能得到想要的页面，我们今天主要的目的就是了解这个过程。

4，请求与响应过程：

1）浏览器中输入URL

URL ( Uniform Resource Locator)
统一资源定位符
➢URL实际上就是互联网标准资源的唯一地址
➢表示了互联网资源位置的和访问资源的方法

互联网上的每个文件都有一个唯一的URL

2）浏览器根据输入的URL输入的URL寻找对应的IP地址

浏览器根据输入的URL寻找对应的IP地址。

IP地址( Internet Protocol Address )
就是给互联网上的每一台主机或者设备分配一个在全世界范围内唯一的标识符
如: 14.215.177.38

3）客户端与目标服务器建立TCP连接

TCP (Transmission Control Protocol)
传输控制协议
➢为了在不可靠的互联网络上提供可靠的、端到端的字节流而专门设计的一个传输协议

通过IP地址找到服务器后，目的肯定是为了进行信息交流，因此，必须要建立一个TCP连接，为了在不可靠的互联网络上提供可靠的、端到端的字节流而专门设计的一个传输协议

4）浏览器向web服务器发送HTTP请求

5）收到请求后，将web客户端请求的文档（HTML）作为响应返回（成功与否）

web服务器收到HTTP请求后，将web客户端请求的文档作为响应返回给用户。

6）浏览器对文档进行处理，加载，解析，渲染。

HTTP (HyperText Transfer Protocol )
超文本传输协议
➢互联网上应用最广泛的一种网络传输协议
➢所有的WWW文件都必须遵守这个标准

我们要知道，打开网页的本质是什么？

本质就是对网站服务器发送请求，然后由网站服务器返回我们需要访问的文件。

二，HTTP协议

1，万维网

首先，我们要知道万维网，万维网是什么呢？

我们可以看到，开头的地方首先就是https，这就是HTTP协议。

所谓万维网就是后面的www，即world wide website。

2，协议：

网络通信的参与方必须遵循相同的规则。

世界上运行着很多设备，如果这些设备想要能够相互交流，那就必须要定义一些通用的规则来进行交流，人们把操作系统之间的通信称为“协议”。

网络通信需要使用相同的一组网络协议。

如果要在客户端和服务端传输web文档，HTTP协议就是传输web文档的一种主要协议。

浏览器发送请求，网站服务器响应请求的这个过程中，必须严格遵循HTTP协议的格式，工作方式提供所需的数据。

三，HTTP知识

编写爬虫程序，实际上就是模仿浏览器，向网站服务器发送请求。

HTTP请求报文：

四，HTTP请求方法：

HTTP定义了一组请求方法，用来表明对目标资源要执行的操作。

浏览器访问网站一般都使用get请求方法。

五，HTTP的响应

编写爬虫程序的主要工作：

获取HTTP响应，从中筛选出自己想要的数据。

HTTP响应报文：

六，HTTP的响应状态码

状态码告知网站服务器的响应状态

七，HTTP的响应头

HTTP的响应体中，包含了服务器返回的所有网页数据。

八，HTTPS协议

(Hypertext Transfer Protocol Secure)超文本传输安全协议

HTTPS协议是一种通过网络进行安全通信的传输协议，经由HTTP进行通信，利用SSL/TLS
加密数据包。

HTTP协议是明文的，不安全的，而HTTPS协议对网络数据传输进行了加密，能够有效保护用户隐私。

HTTPS开发的主要目的是提供对网站服务器的身份认证，保护交换数据的隐私与完整性

九，初始HTML文档

我们必须要理解网页的基本构造与组成，然后才能去分析筛选出需要的数据。

无论是什么样的网页，都必须是这样的布局。HTML是支撑网页内容的部分。

通常来讲，我们在浏览器中看到的网页内容就是浏览器解析超文本后的输出结果，即HTML。

HTML超文本标记语言( Hyper Text Markup Language)

➢不是编程语言，而是标记语言
➢使用一套标记标签(Markup Tag)
➢HTML文档包含标记标签和文本内容

服务器将HTML文档返回给客户端之后，我们使用的浏览器是知道HTML语法的，所以它会自动解析。解析完之后就是我们所看到的页面。能够实现比文本更丰富的内容。

十，HTML的标签

HTML标签
➢由尖括号包围的关键词，如
➢通常成对出现，如和

标签对中的第一个标签是开始标签，第二个标签是结束标签。

一些高频标签：

HTML元素：

从开始标签到结束标签之间的所有代码。

总结

如果是初学python爬虫，觉得自学比较难的，那么我接下来分享的这全套 Python 学习资料一定不要错过，希望能给那些想学习 Python 的小伙伴们带来帮助！

python学习路线

环境搭建

使用 Python 首先需要搭建 Python 环境，我们直接到 Python 官网下载自己对应平台和版本的安装包进行安装即可

python开发工具

俗话说：工欲善其事，必先利其器，Python 的学习也是一样，新手建议首选 PyCharm，可以快速上手，减少配置时间。

学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

需要资料的小伙伴可以找我

程序员面面

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄2年

55: 原创

-: 周排名

-: 总排名

6万+: 访问

: 等级

1176: 积分

284: 粉丝

507: 获赞

20: 评论

550: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python爬虫教程（非常详细）从零基础入门到精通，看完这一篇就够了
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
Anaconda安装(2024年6月最新版)并配置Python环境 | Python系列教程
2301_78443180: 为什么这个版本里没有jupyter notebook呢
Anaconda安装(2024年6月最新版)并配置Python环境 | Python系列教程
～^O^～101: 有快捷的安装包吗？
计算机专业，如何在大一领先其他人？关键是打破信息差！
我是陈泽: 求一份，文章质量真的很高啊，在csdn很少看到这么优秀的文章
Anaconda安装(2024年6月最新版)并配置Python环境 | Python系列教程
Bowyer_Zhang: 大佬，安装后创建python3新文件出现Permission denied: untitled.py怎么解决啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。