Python爬虫笔记 | 初识爬虫技术

最新推荐文章于 2024-05-26 23:13:53 发布

MUYUN友逹

最新推荐文章于 2024-05-26 23:13:53 发布

阅读量592

点赞数 3

分类专栏： Python爬虫笔记文章标签：初识爬虫

本文链接：https://blog.csdn.net/Microgoblins/article/details/102673803

版权

本文介绍了Python爬虫的基本工作原理，包括获取数据、解析数据、提取数据和储存数据四个步骤，重点讲解了requests库的使用，如get、post等HTTP请求方法。同时，强调了爬虫应遵守的伦理原则，如尊重Robots协议，限制爬取速度，维护互联网秩序。

摘要由CSDN通过智能技术生成

使用python版本：3.7.0 64-bit

爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。

爬虫的工作原理四步骤

第1步： 获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。
第2步： 解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
第3步： 提取数据。爬虫程序再从中提取出我们需要的数据。
第4步： 储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

获取数据：requests库

requests库的安装见博客：https://blog.csdn.net/Microgoblins/article/details/102672982

requests库可以帮我们下载网页源代码、文本、图片，甚至是音频。其实，“下载”本质上是向服务器发送请求并得到响应。

发送请求：对应http的不同请求类型，requests库有不同的方法：

1.requests.get(): 获取HTML网页的主要方法，对应于HTTP的GET

具体用法如下：

import requests
#引入requests库
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求，括号里的参数是你需要的数据所在的网址，然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

2.requests.post(): 向HTML网页提交POST请求的方法，对应于H