爬虫
户同学
用最初的心,走最远的路
展开
-
爬虫验证码的识别
请求验证码的地址,获得相应,识别 url不变,验证码会变 思路:对方服务器返回验证码的时候,会和每个用户的信息和验证码进行一个对应,之后,在用户发送post请求的时候,会对比post请求中法的验证码和当前用户真正的存储在服务器端的验证码是否相同 1.实例化session 2.使用seesion请求登录页面,获取验证码的地址 3.使用session请求验证码,识别 4.使用sess...原创 2018-10-16 23:09:57 · 263 阅读 · 0 评论 -
爬虫代理IP池的实现
使用代理发送请求: requests.get(url,proxies={协议:协议+ip+端口}) 正向代理:客户端知道最终服务器的地址 反向代理:客户端不知道最终服务器的地址 怎样合理的使用代理: 准备一堆的ip地址,组成ip池,随机选择一个ip来时用 如何随机选择代理ip,让使用次数较少的ip地址有更大的可能性被用到 {"ip":ip,"times":0} [{},{},{}...原创 2018-10-16 23:26:18 · 853 阅读 · 0 评论