Python爬虫之验证码处理

本文介绍了Python爬虫中处理验证码的方法,包括手动输入、图像识别引擎和打码平台。重点讲解了OCR技术的使用,如tesseract的安装与应用,并提到了打码平台的选择与使用,展示了使用验证码打码平台实现登录过程。
摘要由CSDN通过智能技术生成

1、了解常见验证码

在日常生活与工作中,在进行各类设计个人账户安全的操作时,往往需要填写各种验证码来进行验证,短信、语音、文字、问答、图片、拖拽、旋转腾挪、拼图接图...千奇百怪,各种各样,种类繁多,花样迭起!

就拿奇葩验证码鼻祖的12306来说,如今我们在12306中可以碰到各种有趣,各种类型的验证码的原因,要归功于为抢票事业做出巨大贡献的——黄牛们,它的“进化史”就是一部不断与黄牛和抢票软件“斗智斗勇”的历史。

图片

目前我们常见的验证码,无非就是文本、图像以及音频这三大类。

图片

而当文本验证码仍容易被机器“击破”时,图像验证码就应运而生了。通常是会提供一些物体、动物、植物、人、风景之类的图像,让我们选择正确的图像进行标记。这就是以12306为首的图像验证码了,但是这个还不算后来图像验证码又增加了新的玩法,比如旋转图片,比如拼图以及宫格,目的还是为了对抗爬虫这些机器。

图片

接下来是音频验证码,这种相比前两种数量相对要小一些,主要是会给我们一段录音,里面有随机的单词或数字,有的会加一些噪音,我们基于录音输入其中听到的单词或数字,或者把它读出来。从安全性上来说,声音验证码比文本和图像等级要提升一个层级,因为机器想要听录音并分辨,这个难度会非常大。

图片

2、验证码的处理方案

  • 手动输入(input) 这种方法仅限于登录一次就可持续使用的情况

  • 图像识别引擎解析 使用光学识别引擎处理图片中的数据,目前常用于图片数据提取,较少用于验证码处理

  • 打码平台 爬虫常用的验证码解决方案

3、图像识别引擎

OCR,即Optical C

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值