Python Requests库

Python Requests库

  • requests.request() 构造一个请求,支撑以下各方法的基础方法
  • requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
  • requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
  • requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
  • requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
  • requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
  • requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE

r = requests.get(url, params=None, **kwargs)
∙ url : 拟获取页面的url链接
∙ params : url中的额外参数,字典或字节流格式,可选
∙ **kwargs: 12个控制访问的参数
∙ r: 返回的response对象

r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败
r.text HTTP响应内容的字符串形式,即,url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式(备选编码方式)
r.content HTTP响应内容的二进制形式

def getHTMLText(url):   #爬去网页的基本框架
    try:
    r = requests.get(url)#获取页面信息
    r.raise_for_status() #获取过程中出现异常则退出
        r.encoding = r.apparent_encoding#获取编码方式
        return r.text    #返回页面的文本信息
    except:
        return ""

网络爬虫爬取标准:Robots协议
网站告知网络爬虫哪些页面可以抓取,哪些不行
在网站根目录下的robots.txt文件

https://www.jd.com/robots.txt
User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

用于个人学习时可以不遵守该协议


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值