Python 爬虫——requests库

爬虫第一步安装requests库

具体的安装方法 cmd 模式下  pip install requests


request库中的具体方法:

requests.request()    构造一个请求

requests.get()             获取HTML网页的主要方法,对应与HTTP 的Get

requests.head()         获取HTML网页头信息的方法,对应Http的head

requests.post()           向Html网页提交Post 的请求方法,对应HTTP的post

requests.put()  向Html的网页提交put请求,对应Http的put

requests.patch()         向Html网页提交局部修改,对应Http的PATCH

requests.delete()        向HTML网页提交删除的请求,对应HTTP 的delete

抓取百度页面

# 引用request库
import requests
#使用get 方法请求http://www.baidu.com
r=requests.get('http://www.baidu.com')
# 状态码
status_num=r.status_code
#进行页面转码
r.encoding=r.apparent_encoding
#打印页面
print(r.text)
#打印响应头
print(r.headers)

get:

Help on function get in module requests.api:


get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary or bytes to be sent in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response

解析理解:

向页面发送Request请求返回Response

r=requests.get(ur,params=None,**kwargsl)

url:拟获取页面的url连接

params:url中的额外参数,字典或字节流格式,可选

**kwargs:12个控制访问的参数

r:相当于返回一个包含服务器资源的response对象

get:构造一个向服务请求资源的request对象



Response对象的属性:

r.status_code   Http请求返回状态,200返回成功

r.text     Http请求响应内容的字符串形式,即url对应的页面内容

r.encoding         从Http header 中猜测的响应内容编码方式

r.apparent_encoding        从内容中分析出响应的内容编码格式

r.content            从HTTP 响应的内容二进制形式   #目录

r.headers          获取请求头信息

例子:

# 引用request库
import requests
#使用get 方法请求http://www.baidu.com
r=requests.get('http://www.baidu.com')
# 状态码
status_num=r.status_code
#进行页面转码
r.encoding=r.apparent_encoding
#打印页面
print(r.text)
#打印响应头
print(r.headers)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值