python 爬虫(二)--requests库

目录

模块说明

安装requests

response的属性

.txt

.url

对比了urlib和requests的区别

get请求

 post请求

代理

 cookie--登陆(古诗文网)


模块说明

requests是使用Apache2 licensed 许可证的HTTP库。

用python编写。

比urlib2模块更简洁。

Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举的完成浏览器可有的任何操作。现代,国际化,友好。

requests会自动实现持久连接keep-alive

安装requests

pip install requests

response的属性

.txt

print(response.txt)---以字符串的形式来返回了网页的源码

【如果返回中文形式有乱码,可能是编码格式的问题,可以设置响应编码格式

response.encoding = 'utf-8']

.url

返回url地址

对比了urlib和requests的区别

get请求

 url 请求资源链接

params  参数

kwargs 字典


 

 post请求

 首先抓接口

 

 url 请求地址

data 请求参数

kwargs 字典

 此时返回的是中文

 get和post返回参数的名不一样!!!

代理

proxy 代理

1.代理

 

 有的网页检测到此ip为爬虫会拦截此时我们应该直接换ip即可

2.快代理

(不好使时,可以买,毕竟免费的不好使正常)

 cookie--登陆(古诗文网)

我们的目标绕过登录页面,随便进入到其它哪个页面都可

!困难点,此页面有个验证码,动态验证码不好动

1.找登录接口

一般来说,带登陆的接口都有login

 

 

 一般来说,看不到的变量都在页面源代码中

hidden,隐藏域,页面中不显示但是页面中存在

所以我们需要获取页面源码,然后进行解析就可以获取了

 

 检索一下,自己所获取的源代码中,是否含有自己想要的东西,万一此项反扒呢!

下面这一步,进行解析,要先学会bs4的语法,或者xpath的语法

id选择器#

select 返回的是一个列表

[0].attrs    列表中的属性

 现在进行验证码的分析

定位验证码知道它大概是一个img图片,找它的地址

学习requests,最好先将urllib也学会

 抓登录接口

preserve log

如果不勾上,之前被执行过的页面可能就被覆盖住了,是为了防止chrome浏览器版本过低

一般不勾上

直接输入错误的密码

它就不会跳转到下一页面,便于查找

此时验证,你会发现不成功,因为一直会报验证码错误,那就证明上面我们所提到的坑,是很重要的,可能出了问题

一直报错是因为,你提交时的验证码和你截取时看到的验证码不一样了已经,在你提交的时候就已经更新了一遍了,所以会一直报错

 

 发现旁边没有验证码图片 不要慌张,在本地找一下

requests 超级鹰打码平台使用(自动破解验证码)

下载后可解压文件夹,后进行使用,

将图片,和代码文件拖入文件列表中,则可进行编辑

根据提示修改相应部位

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值