针对python爬虫requests库的基础问题

最新推荐文章于 2024-04-08 06:41:23 发布

珝羽

最新推荐文章于 2024-04-08 06:41:23 发布

阅读量699

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_39213755/article/details/82527111

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

requests库的基本用法

1. get函数

r = requests.get(url,**kwargs)

（1）kwargs：控制访问的参数**，均为可选项，以下给出一些常用的参数：

kv={'key1':'value','key2':'value2'}
    r=requests.request('GET','http://python123.io/ws',params=kv)
    print(r.url)
http://python.io/ws?key1=value1&key2=value2

params: 字典或字节序列，作为参数增加到url中
headers: 字典，HTTP定制头（模拟浏览器进行访问）
timeout: 设定超时时间，秒为单位

data:字典，字节序列或文件对象，作为Request的内容
json:JSON格式的数据，作为Request的内容
cokies：字典或CpplieJar,Request中的cookie
auth:元祖，支持HTTP认证功能
files：字典类型，传输文件
proxies:字典类型，设定访问代理服务器，可以增加登陆认证

（2）headers

当前页面按下F12 >> “网络”标签 >> 右侧“标头（消息头）”下方的“请求标头（请求头）” >> 添加到requests请求中

'Accept' : 发送端（客户端）希望接受的数据类型

'Content-Type' : 发送端（客户端|服务器）发送的实体数据的数据类型

'Host' : 确定本次请求的是哪个具体的网站

'User-Agent' : 用户代理

'Cookie' : Internet站点创建的，为了辨别用户身份而储存在用户本地终端上的数据

headers={
            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
            'Connection':'keep-alive',
            'Host':'bbs.pku.edu.cn',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0',
            'Cookie':'skey=ff16224dde4113e5; uid=15265'
        }

（3）get函数返回一个Response对象(type : <class 'requests.models.Response'>)

Response对象的属性：

属性	说明
r.status_code	HTTP请求的返回状态，200为成功，404失败
r.text	HTTP响应内容的字符串形式（文本）
r.encoding	从HTTP header中猜测的响应内容编码形式
r.apparent_encoding	从内容中推测的编码形式（个人不建议用）
r.content	HTTP响应内容的二进制形式（字节）

r.raise_for_status() : 用于抛出异常，如果r.status_code==200 ： r.raise_for_status() = none

在明确了网页的字符集编码后可以使用类似 r.encoding = 'utf-8' 获取结果

def getHTMLText(url):
    try:
        r = requests.get(url,headers=headers,timeout=30)
        r.encoding = "utf-8"
        r.raise_for_status()
        return r.text
    except:
        return"产生异常"

2.head函数

当需要爬取的网页过大的时候，可以用r = requests.head(url,**kwargs)函数获取网页大概内容

珝羽

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
针对python爬虫requests库的基础问题

requests库的基本用法1. get函数r = requests.get(url,**kwargs)（1）**kwargs：控制访问的参数，均为可选项，以下给出一些常用的参数：kv={'key1':'value','key2':'value2'} r=requests.request('GET','http://python123.io/ws',params=kv)...
复制链接

扫一扫