网络爬虫学习1 - 使用 requests.get(url) 抓取网页

MicroLindb

已于 2022-12-18 20:14:17 修改

阅读量1.3w

点赞数 5

分类专栏：网络爬虫文章标签：爬虫 python 网络

于 2021-01-28 19:59:30 首次发布

本文链接：https://blog.csdn.net/qq_43768851/article/details/113357168

版权

网络爬虫专栏收录该内容

3 篇文章 5 订阅

订阅专栏

网络爬虫MOOC学习打卡 - 第一天

文章目录

网络爬虫MOOC学习打卡 - 第一天
一、使用 requests.get(url) 抓取网页
- 1.从cmd中打开idle
- 2.调用requests类 —— import requests
总结

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

在这里插入图片描述

2.调用requests类 —— import requests

requests.get(url) 是用来抓取网页信息的

知识点一：
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下：

# 调用requests
import requests

# 使用 get()方法抓取百度的主页信息
r = requests.get(https://www.baidu.com) 

# 使用 r.text用来输出抓取的信息
r.text

这里有需要注意的地方：在输入url的时候，如果不输入http://则会报错。
在这里插入图片描述
知识点二：
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方，所以我们可以自己分析一下真正的编码是什么
1.估计查询：r.encoding
2.更精准查询（但是也不是完全正确的）：r.apparent_encoding

代码如下：

# 默认编码（是从头文件中分析得来的）：
r.encoding

# 更精准查询（但是也不是完全正确的，是从内容分析中得来的）：
r.apparent_encoding

所以我们可以更改编码方式：
我们用分析更准确的编码方式赋予r.encoding，这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下：

# 把r.apparent_encoding的编码格式赋予r.encoding
r.encoding = r.apparent_encoding

# 这次再输出抓取的内容吧
r.text

结果如下：
在这里插入图片描述
不难看到，中文出现了！因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三：
1.状态码

“今天你连接成功了么？”

# 返回结果是 200 ，success
# 返回结果为 404 或其他 ，fault
r.status_code

总结

没什么总结的。。放松一下读读诗吧
在这里插入图片描述

赠卫八处士杜甫
人生不相见，动如参与商。今夕复何夕，共此灯烛光。
少壮能几时，鬓发各已苍。访旧半为鬼，惊呼热中肠。
焉知二十载，重上君子堂。昔别君未婚，儿女忽成行。
怡然敬父执，问我来何方。问答乃未已，驱儿罗酒浆。
夜雨剪春韭，新炊间黄粱。主称会面难，一举累十觞。
十觞亦不醉，感子故意长。明日隔山岳，世事两茫茫。