前言:
在很多爬虫的自动化项目中,我们难免会遇到一些需要处理验证码的问题,其中一种解决方案就是通过手动输入,但这样效率却很慢,有没有什么方法能帮助我们自动识别呢?当然又,那就是打码平台,这里我推荐打码狗平台,识别率很高,并且便宜,但是还是希望大家也包括我后来能通过深度学习的方式,建立起自己的一套识别体系,废话不多说,那么就开始吧!!!
不想看分部分介绍直接拉到最下面修改配置即可食用
简单介绍打码狗平台(没有广告钱)
可以看一下下面这个介绍,然后大家注册一下,充值积分,特别便宜我记得我那个1元钱都用了好几个月都还没用完
Python代码实现
这里我创建了一个captchaRecognize
类,我将分别对类中每个部分进行讲解,
初始化
因为,打码平台没有反爬机制,所以简单下了一个User-Agent
上去,加了一个判断条件,判断是否有有效的session
传入
def __init__(self, s):
if s is None:
self.s = requests.session()
else:
self.s = s
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3754.400 QQBrowser/10.5.4034.400',
}
获取打码平台UserKey
这个UserKey
唯一标志了你的身份
# 用于获取打码平台UserKey
def get_userKey(self, ):
get_url = f"http://www.damagou.top/apiv1/login.html?username={username}&password={password}"
try:
r = requests.get(get_url, headers=self.headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
print("Dmagou Being Processing"