python爬虫Request

【1】先确定是否为动态加载网站
【2】找URL规律 
【3】正则表达式 | xpath表达式 
【4】定义程序框架,补全并测试代码

 1、request是什么

Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。

2、request爬取格式

【1】方法一 : requests.get()
【2】参数
   2.1) url
   2.2) headers
   2.3) timeout
   2.4) proxies

【3】方法二 :requests.post()
【4】参数
    data

2.1request

①request.get

②request.post

2.2response

 response方法,response方法 获取网页的解码字符串 通过上述例子我们可以看到,不管是get请求还是post请求,我们得到的返回都是一个Response[200]的对象,但是我们想要得到的,应该是与网页response下一样的字符串对象,这时就需要用到response的方法了。response.text:获取网页的HTML字符串,该方式往往会出现乱码,出现乱码使用response.encoding='utf-8'

 

 

 定制headers

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值