爬虫笔记（二）--Request库

最新推荐文章于 2023-10-25 10:21:02 发布

jys0703

最新推荐文章于 2023-10-25 10:21:02 发布

阅读量291

点赞数

分类专栏：爬虫笔记

本文链接：https://blog.csdn.net/jys0703/article/details/104648615

版权

本文详细介绍了Python的Requests库，包括get方法的Response对象属性、通用代码框架、异常处理，以及get、post、head等方法的使用。还提供了亚马逊、百度等实例，展示了网络图片的爬取和IP地址归属地查询等具体应用。

摘要由CSDN通过智能技术生成

Requests高级请求库

import requests
r = requests.get("http://www.baidu.com")
#通过request.get构造一个Request对象，返回值为一个Response对象并赋值给r

Response对象中包含了爬虫返回的内容

属性	说明
r.status _code	HTTP返回码，200为正常，304请求成功但被拒绝(没有权限，请求方式不对，可以携带参数解决)，400请求失败，一般为参数问题，404服务器找不到页面位置
r.text	HTTP响应内容的字符串形式(默认unicode编码)，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式(如果header中不存在charset，则认为编码为ISO-8859-1）
r.apparent_encoding	从内容中分析出响应内容的编码方式
r.content	响应内容的二进制编码形式（可以还原图片）
r.cookies	返回响应的cookies，部分服务器会对cookie进行监测，下次发送请求的时候，如果没有带上服务器响应的cookie，会被ban

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)
print(r.text)

在这里插入图片描述
返回内容中无中文部分

print(r.encoding)

输出encoding属性为ISO-8859-1
猜测输出text属性时使用的时encoding属性，因此将utf-8赋值给r.encoding

r.encoding='utf-8'

也可以使用如下方法

r.content.decode("utf-8")

在这里插入图片描述

Requests支持六种常用的异常处理

print(r.raise_for_status())
#r.raise_for_status()如果不是200则产生异常requests.HTTPError

加入raise_for_status()方法即可得框架

def getHTML(url)

关注