python爬虫学习笔记1：requests库及robots协议

最新推荐文章于 2020-12-11 14:25:09 发布

h0ryit

最新推荐文章于 2020-12-11 14:25:09 发布

阅读量440

点赞数

分类专栏： python学习文章标签： spider

本文链接：https://blog.csdn.net/w0ryitang/article/details/80196694

版权

python学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

The Website is the API

requests库

requests库的7个主要方法

requests.request

构造一个请求
requests.request(method,url,[**kwarges])

method：请求方式（get，post，put，patch，head，delete，option）
url：url链接
**kwarges:
- params[字典或字节序列，作为参数增加到url中]
- data[字典，字节序列或文件对象，作为request的内容]
- json[json格式数据，作为request的内容]，headers[字典，HTTP头]
- cookies[字典或cookiejar，request中的cookie]
- auth[元组，支持http认证功能]
- files[字典，传输文件]
- timeout[设定超时时间，以s为单位]
- proxies[字典类型，设定代理服务器，可增加登录认证]
- allow_redirects[重定向开关，默认为True]
- stream[获取内容立即下载开关，默认为True]
- verify[认证ssl证书开关，默认为True]
- cert[本地ssl证书路径]

requests.get()

请求获取url位置的资源
r=request.get(url,params,**kwargs)

requests.head()

请求获取资源的头部信息
requests.head(url,**kwargs)

requests.post()

请求向url位置的资源后附加新的数据
requests.post(url,data,json,**kwargs)

requests.put()

请求向url位置存储一个资源覆盖原有的资源
requests.put(url,data,**kwargs)

requests.patch()

请求改变该资源的部分内容
requests.patch(url,data,**kwargs)

requests.delete()

请求删除url位置存储的资源
requests.delete(url,**kwargs)

requests请求返回的response对象

构造一个向服务器请求资源的requests对象
返回一个包含服务器资源的response对象
- r.status_code - http请求的返回状态
- r.text - HTTP响应内容的字符串形式
- r.encoding - 从HTTP header中猜测的响应内容编码方式（如果http header中不存在charset，则认为编码为ISO-8859-1）
- r.apparent_encoding - 从内容中分析出的响应内容的编码方式（备选编码方式）
- r.content - http响应内容的二进制形式

requests库的异常

requests.ConectionError - 网络连接异常，如DNS查询失败、拒绝连接等
requests.HTTPError - HTTP错误异常
requests.URLRequired - URL缺失异常
requests.TooManyRedirects - 超过最大重定向次数
requests.ConnectTimeout - 连接远程服务器超时
requests.Timeout - 请求url超时
r.raise_for_status() - 如果不是200，产生requests.HTTPError

爬取网页的通用代码框架

网络连接有风险，异常处理很重要

import requests
def getHTMLText(url):
    try:
        r = request.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url = "www.baidu.com"
    print(getHTMLText(url))