python爬虫之Requests库入门

最新推荐文章于 2023-12-04 11:53:29 发布

嘿，该醒醒了

最新推荐文章于 2023-12-04 11:53:29 发布

阅读量391

点赞数 1

分类专栏：笔记 python爬虫文章标签： python requests库

本文链接：https://blog.csdn.net/freedom_forever/article/details/103467233

版权

3 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

前期准备：下载并安装python运行环境 python3.70下载地址密码：23pm
导入requests库：用快捷键:Windows+R 打开命令行窗口，输入cmd
进入dos命令窗口
输入：pip install requests
按下回车键即可，出现以下显示即表示成功
requests库的七种方法：

1.支撑所有方法的基础方法：requests.request(method,url,**kwargs)：
method:GET,HEAD,POST,PUT,PATCH.DELETE,OPTIONS
url:数据资源链接
**kwargs：12个控制访问的参数（

a. params:字典或字节序列，作为参数加入到url中
b.data:字典、字节序列或文件对象，作为Request的内容

c.json：JSON格式的数据，作为request的内容

d.headers:字典，http定制头

e.cookies:字典或CookieJar，Request中的cookie
f：auth：元组，支持http认证功能
g：files:字典类型，传输文件

h.timeout：设定超时时间，单位是秒

g.proxies字典类型，访问代理服务器，增加登陆认证

重点掌握的方法：
requests.get()
requests.head()
爬取网页的框架：
def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return "产生异常"
这里面的核心代码：r.raise_for_status()
作用：判断是否返回200。如果没有返回200，则进入except中产生异常。

关注