Day03 爬虫学习入门第三天:验证码识别,模拟登录,异步爬虫

验证码识别

  • 线上的打码平台进行验证码识别
    • 云打码 http://www.yundama.com/
    • 超级鹰(使用) http://www.chaojiying.com/
    • 打码兔
  • 超级鹰
    • 注册:身份(用户中心)
    • 登陆:身份(用户中心)
      • 创建一个软件:软件ID-》生成一个软件ID
      • 下载实例代码:开发文档-》python

用到了一些软件,自行斟酌采取与否,这里跟着学习的采用是超级鹰验证码识别,用的是官网下载的py文件,封装了一个函数进行调用。
在这里插入图片描述然后调用该函数,传入需要识别的验证码图片,就可以识别出来验证码了
在这里插入图片描述

模拟登录

模拟登录可以随机找一个网站试一下,有的网站可以成功,有的网站以本人现有的技术还不行,需要注意的几个问题:

  • 没有登录成功
    • url没有错
    • 请求参数
      • 遇到了动态变化的请求参数
      • 一般情况下动态变化的请求参数都会被隐藏在前台页面的源码中
      • 需要在抓包工具中对动态变化的请求参数的名称进行全局搜索
  • 依然没有登陆成功
    • 分析:cookie导致,携带cookie进行访问

异步爬虫

  • 基于线程池的异步爬虫
  • 基于多任务异步协程(重点:面试比较多)

需要自己搭建一个flask服务器
在这里插入图片描述

网站名字可以自己取

  • 基于线程池的异步爬虫

先放上同步代码
在这里插入图片描述
通过线程池实现异步代码
在这里插入图片描述
写到这里。

网站突然没了颜色,看到自己的头像变灰了吓了一跳,反应过来已经到了四月清明,然而我还是没有找到实习…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值