Python 爬虫——requests库

最新推荐文章于 2023-06-03 18:36:45 发布

Py_CCY

最新推荐文章于 2023-06-03 18:36:45 发布

阅读量920

点赞数 1

文章标签：爬虫库 python

本文链接：https://blog.csdn.net/Py_CCY/article/details/73813955

版权

爬虫第一步安装requests库

具体的安装方法 cmd 模式下 pip install requests

request库中的具体方法：

requests.request() 构造一个请求

requests.get() 获取HTML网页的主要方法，对应与HTTP 的Get

requests.head() 获取HTML网页头信息的方法，对应Http的head

requests.post() 向Html网页提交Post 的请求方法，对应HTTP的post

requests.put() 向Html的网页提交put请求，对应Http的put

requests.patch() 向Html网页提交局部修改，对应Http的PATCH

requests.delete() 向HTML网页提交删除的请求，对应HTTP 的delete

抓取百度页面

# 引用request库
import requests
#使用get 方法请求http://www.baidu.com
r=requests.get('http://www.baidu.com')
# 状态码
status_num=r.status_code
#进行页面转码
r.encoding=r.apparent_encoding
#打印页面
print(r.text)
#打印响应头
print(r.headers)

get:

Help on function get in module requests.api:

get(url, params=None, **kwargs)
Sends a GET request.

:param url: URL for the new :class:`Request` object.
:param params: (optional) Dictionary or bytes to be sent in the query string for the :class:`Request`.
:param \*\*kwargs: Optional arguments that ``request`` takes.
:return: :class:`Response <Response>` object
:rtype: requests.Response

解析理解：

向页面发送Request请求返回Response

r=requests.get(ur，params=None，**kwargsl)

url：拟获取页面的url连接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

r:相当于返回一个包含服务器资源的response对象

get：构造一个向服务请求资源的request对象

Response对象的属性：

r.status_code Http请求返回状态，200返回成功

r.text Http请求响应内容的字符串形式，即url对应的页面内容

r.encoding 从Http header 中猜测的响应内容编码方式