网络爬虫从入门到实践（二）————静态网页的爬取

最新推荐文章于 2024-09-02 14:30:48 发布

2014zhang

最新推荐文章于 2024-09-02 14:30:48 发布

阅读量847

点赞数 1

分类专栏： Python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/qq_38742970/article/details/83688482

版权

本文介绍了Python爬虫入门的基础知识，包括使用requests库进行静态网页的爬取，讲解了如何安装requests，获取响应内容，设置URL参数，定制请求头，发送POST请求以及处理超时问题。此外，还通过实例展示了如何爬取豆瓣电影TOP250的数据。

摘要由CSDN通过智能技术生成

静态网页的爬取

1.安装requests

pip install requests

2.获取响应内容

import requests

r = requests.get(url)
#打印出文本编码
print("文本编码", r.encoding)

#打印出状态响应码
print("状态响应码", r.status_code)

#打印出字符串方式的响应体(即文本)
print("字符串方式的响应体",t.text)

这样就返回了一个名为 r 的 response 响应对象，存储了服务器的响应内容

r.text 是服务器响应的内容

r.enconding是服务器内容使用的文本编码

r.status_code 用于检测响应的状态码，若返回200，则表示请求成功，若返回4xx，则表示客户端错误，若返回5xx, 则表示服务器错误响应。

r.content 是字节方式的响应体，会自动解码 gzip 和 deflate 编码的响应数据

r.json()是 requests 中内置的json解码器

3.定制 requests

（1）传递 url 参数

为了请求特定的数据，我们要在 URL 的查询字符串中加入变量，数据跟在一个问号的后面，以键值对的形式放在 url中。在

requests中，可以把这些参数保存到字典中，然后用 params构建到 URL 中。