【源码】某度贴吧验证码识别 附带demo和思路

本文介绍了如何使用自研的简易验证码爬虫框架采集【某度贴吧】的验证码,并结合Captcha Trainer框架进行训练,达到高识别率。通过百度OCR与自定义训练,解决字符集限制问题。详细步骤包括验证码的采集、识别及训练过程。
摘要由CSDN通过智能技术生成

【某度贴吧】验证码识别

首先采集使用了【自研简易验证码爬虫框架】

一般的验证码获取流程分为三大步骤

  1. 前置请求, 获取验证码相关参数
  2. 验证码请求, 获取验证码
  3. 校验请求, 通过官网判定验证码是否正确

通过继承 Project 类实现具体的流程 utils.Project

  1. def before_process()-> dict, 返回其他流程需要的参数字典, 通过 self.before_params访问
  2. def captcha_process() -> Tuple[bytes, str], 返回验证码图片bytes和识别后的内容
  3. def feedback_process() -> bool, 返回验证码反馈情况,是否正确

在 const.json 文件中补充自己的 联众账号 和 百度API 以及样本保存的路径

{
  "baidu":  {
    "app_id":  "app_id",
    "api_key": "api_key",
    "secret_key": "secret_key"
  },
  "lianzhong": {
    "username": "username",
    "password": "password"
  },
  "target_dir": "D:/Samples"
}

编写流程:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值