模拟登录: - 爬取基于某些用户的用户信息。
需求:对人人网进行模拟登录。
- 点击登录按钮之后会发起一个post请求
- post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码......)
- 验证码:每次请求都会变化
需求:爬取当前用户的相关的用户信息(个人主页中显示的用户信息)
分析:
---模拟浏览器请求行为
- 在浏览器中进行登录时,录入完用户名、密码和验证码后,需要点击登录按钮。只有在点击登录按钮后,当前页面才会发起一次网络请求。该次网络请求可以通过抓包工具捕获。
- 经过抓包分析后,我们就可以模拟浏览器点击登陆按钮后发起的请求操作了。该请求为post请求,对应的url在上图中可以看到,且请求携带的参数也可以在抓到的数据包中获取。
参数分析:
email:用户名
password:密码
icode:验证码(通过云打码识别)
剩下的参数不需要分析
#编码流程:
#1.验证码的识别,获取验证码图片的文字数据
#2.对post请求进行发送(处理请求参数)
#3.对响应数据进行持久化存储
from CodeClass import YDMHttp #云打码提供的类(先