【笔记】慕课-Python网络爬虫与信息提取-Requests库（1）

最新推荐文章于 2022-06-13 14:17:41 发布

shupppppppy

最新推荐文章于 2022-06-13 14:17:41 发布

阅读量178

点赞数

分类专栏： Python 文章标签： python 爬虫 http

本文链接：https://blog.csdn.net/shupppppppy/article/details/120073851

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

这篇博客介绍了Python的Requests库，用于自动爬取和提交HTTP请求。主要讲解了GET、HEAD、POST、PUT、PATCH、DELETE等方法，以及如何处理Response对象，包括获取状态码、文本内容、编码方式等。提供的通用代码框架展示了如何爬取网页内容。

摘要由CSDN通过智能技术生成

Requests

1、Requests库

自动爬取HTML页面的源代码，自动网络请求提交。

requests.requests(method,url,**kwargs)

method：'GET','HEAD','POST','PUT','PATCH','delete','OPTIONS'
**kwargs：params,data,json,headers...(访问控制参数)

其中的method分别对应HTTP中的方法method。

2、获取互联网上的资源

  requests.get()

r=requests.get(url)
两个对象：Request和Response

Response的五个常用属性：
r.status_code(HTTP请求的返回状态，200表示连接成功，404表示失败)
r.text(HTTP响应内容的字符串形式，即url对应的页面内容)
r.encoding(从HTTP head中猜测的响应内容编码方式)
r.apparent_encoding(从内容中分析出的响应内容编码方式 备选编码方式 更准确)
r.content(HTTP响应内容的二进制形式，比如还原图片)

requests.head()

获取头部信息
提交更新互联网资源

requests.post()

提交新增数据

requests.put()

须全部提交并覆盖原有数据，否则未提交字段被删除

requests.patch()

部分更新

requests.delete()

删除互联网资源

3、爬取网页的通用代码框架

import requests

def getHTMLText(url)
	try:
		r=requests.get(url,timeout=30)
		r.raise_for_status()	
		#如果状态不是200，引发HTTPerror异常
		r.encoding=r.apparent_encoding	
		#从head猜测的响应内容编码方式转化成更准确的从整个内容中猜测的响应内容编码方式
		return r.text
	except:
		return "产生异常"

if __name__=="__main__":
	url="http://www.baidu.com"
	print(getHTMLText(url))