爬虫验证码的几种处理方式，已封装成类，文章末尾有源码！

最新推荐文章于 2024-05-25 13:38:52 发布

pythonlaodi

最新推荐文章于 2024-05-25 13:38:52 发布

阅读量75

点赞数

分类专栏：爬虫文章标签： python linux 人工智能机器学习

本文链接：https://blog.csdn.net/pythonlaodi/article/details/109291229

版权

本文介绍了如何利用百度AIP接口和muggle_ocr库处理爬虫中的验证码问题。首先讲解了注册并创建百度AIP项目获取所需参数的步骤，接着展示了扩展百度色情识别接口的代码示例。最后提到了muggle_ocr的安装与简单调用，并提及该库在OCR领域的最新进展。源码在文章末尾提供。

摘要由CSDN通过智能技术生成

学会调用百度的aip接口：

此文转载于沙漏在下雨！如有侵权联系小编删除！

1. 首先需要注册一个账号：

https://login.bce.baidu.com/

注册完成之后登入
123

2. 创建项目

在这些技术里面找到文字识别，然后点击创建一下项目

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

创建完成之后：

图片中 AppID , API key, Secret Key 这些待会是需要用的。

下一步可以查看官网文档，或者直接使用我写的代码

3. 安装一下依赖库 pip install baidu-aip

这只是一个接口，需要前面的一些设置。

 def return_ocr_by_baidu(self, test_image):
        """
        ps: 先在__init__  函数中完成你自己的baidu_aip 的一些参数设置

        这次测试使用 高精度版本测试
                    如果速度很慢 可以换回一般版本
                    self.client.basicGeneral(image, options)
                    相关参考网址:
                    https://cloud.baidu.com/doc/OCR/s/3k3h7yeqa
        :param test_image: 待测试的文件名称
        :return:  返回这个验证码的识别效果 如果错误  可以多次调用
        """
        image = self.return_image_content(test_image=self.return_path(test_image))

        # 调用通用文字识别（高精度版）
        # self.client.basicAccurate(image)

        # 如果有可选参数 相关参数可以在上面的网址里面找到
        options = {}
        options["detect_direction"] = "true"
        options["probability"] = "true"

        # 调用
        result = self.client.basicAccurate(image, options)
        result_s = result['words_result'][0]['words']
        # 不打印关闭
        print(result_s)