Python Requests库

最新推荐文章于 2024-07-16 13:17:37 发布

zhhu

最新推荐文章于 2024-07-16 13:17:37 发布

阅读量335

点赞数

分类专栏： Python basics 文章标签： python html 库爬虫

本文链接：https://blog.csdn.net/Ahead_J/article/details/68936845

版权

Python basics 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Python Requests库

requests.request() 构造一个请求，支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法，对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

r = requests.get(url, params=None, **kwargs)
∙ url : 拟获取页面的url链接
∙ params : url中的额外参数，字典或字节流格式，可选
∙ **kwargs: 12个控制访问的参数
∙ r: 返回的response对象

r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败
r.text HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）
r.content HTTP响应内容的二进制形式

def getHTMLText(url):   #爬去网页的基本框架
    try:
    r = requests.get(url)#获取页面信息
    r.raise_for_status() #获取过程中出现异常则退出
        r.encoding = r.apparent_encoding#获取编码方式
        return r.text    #返回页面的文本信息
    except:
        return ""

网络爬虫爬取标准：Robots协议
网站告知网络爬虫哪些页面可以抓取，哪些不行
在网站根目录下的robots.txt文件

https://www.jd.com/robots.txt
User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

用于个人学习时可以不遵守该协议