python爬虫之验证码识别(浅)

话不多说,大人上码ლ(′◉❥◉`ლ)!!!

# coding = utf-8
import requests
import pytesseract
from PIL import Image


class checkcode():
    def __init__(self):  # 初始化参数
        self.start_url = 'http://jxjy.dwjtaq.com/random.xhtml'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '
                          'AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/62.0.3202.62 Safari/537.36'
        }

    def parse(self):  # 请求数据
        ret = requests.get(self.start_url, headers=self.headers)
        return ret.content

    def save_code(self, content):  # 保存验证码
        with open('./code.png', 'wb') as f:
            f.write(content)

    def check_code(self):
        image = Image.open('./code.png')
        text = pytesseract.image_to_string(image)
        return text

    def run(self):
        for i in range(10):
            ret = self.parse()
            self.save_code(ret)
            text = self.check_code()
            print("#")
            print(text)


if __name__ == '__main__':
    start = checkcode()
    start.run()

这个验证码非常规则,所以识别率100%(吹牛,我自己都不信)

此上代码思路:直接请求验证码,转化为图片进行识别

步骤:

安装两个模块pytessract、PIL

import pytesseract
from PIL import Image

关键语句:

Image.open('./code.png')   # 载入图片
pytesseract.image_to_string(image) #图片转化为文本输出

以上案例只能参考学习,无深度仅供入门
















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值