爬虫基础----requests库

最新推荐文章于 2024-09-19 14:47:19 发布

BlackEyes_SY

最新推荐文章于 2024-09-19 14:47:19 发布

阅读量284

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011204487/article/details/52956729

版权

python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

例子

>>>import requests

>>>url= 'http://example.com/'

>>>response = requests.get(url)

>>>response.status_code

200 // requests.status_code查看相应的状态，请求成功返回200，请求失败返回403

>>>response.headers['content-type']

'text/html;charset=utf-8'

>>>response.content

u'Hello,world!'

发送请求

––r = requests.get('https://github.com/timeline.json')[GET]

––r = requests.post("http://httpbin.org/post")[POST]

为URL传递参数

––payload = {'key1':'value1','key2':'value2'}

––r = requests.get("http://httpbin.org/get",params=payload)

––printr.url

––u'http://httpbin.org/get?key2=value2&key1=value1’

响应内容

––r = requests.get('https://github.com/timeline.json')

––print r.text

––'[{"repository":{"open_issues":0,"url":"https://github.com/...

响应状态码

–r = requests.get('http://httpbin.org/get')

–print r.status_code

–200 [OK] OR 403 [禁止访问]

响应头

–print r.headers

–print r.headers['Content-Type']

–'application/json; charset=utf-8’

•cookies

–print r.cookies['example_cookie_name']

超时

–requests.get('http://github.com',timeout=0.001)

–requests.exceptions.Timeout: … // 超时就抛出异常

错误不异常

–Requests异常一般都继承自requests.exceptions.RequestException

–遇到网络问题（DNS查询失败、拒绝连接等）时，Requests会抛出一个ConnectionError异常

–若请求超时，则抛出一个Timeout异常

–遇到罕见的无效HTTP响应时，Requests则会抛出一个HTTPError异常

–若请求超过了设定的最大重定向次数，则会抛出一个TooManyRedirects异常

如何在网页上抓取想要东西

正则表达式(regular expression)

––描述了一种字符串匹配的模式，可以用来检查一个串是否吨有某种子串、将匹配的子串做替换戒者从某个串中取出符合某个条件的子串等

–参考文档：http://www.runoob.com/regexp/regexp-syntax.html

Lxml

––强大的处理HTML不XML的python库

––参考文档：http://lxml.de/tutorial.html

––参考文档：https://www.ibm.com/developerworks/cn/xml/x-hiperfparse

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。