一、探讨
识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域……
简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。
在破解验证码中需要用到的知识一般是 像素,线,面等基本2维图形元素的处理和色差分析。常见工具为:
- 支持向量机(SVM)
- OpenCV
- 图像处理软件(Photoshop,Gimp…)
- Python Image Library
- 更多Python视频、源码、资料加群683380553免费获取
二、PIL安装
PIL: Python Imaging Library, 是Python平台的图像处理标准库,功能非常强大。
在Debian/Ubantu Linux下直接通过apt安装:
$sudo apt-get install python-imaging
Max和其他版本的Linux可以直接使用easy_install或pip安装,安装前需要把编译环境装好:
$ sudo easy_install PIL
Windos平台可以直接去PIL官网下载exe