起因是这样的,我想买一个定焦镜头,但也不是必需品,可以长期观望购买。最初的想法是,写个程序,每天爬一下各大电商网站的价格,或者直接爬etao把该镜头的价格记录下来,突然有一个惊爆的低价,就发邮件通知。这个idea并不难实现,只是懒得做。。。之前我的一些程序也干过类似的事情,比如春节爬打折机票价格什么的。
昨天下午看到一个网站,上面记录了某东的历史数据,我就想把别人的历史数据采集过来看看,自己也练手一下图片识别,我还没用过大名鼎鼎的PIL模块呢。写这系列博客的时候,我还没有完全把图片上的数字识别出来,只是把探索的过程记录一下。
要识别的示例图片如下:
要采集数据的特征:
1、数据是用图片显示的,做成折线图的形式。
2、数据由图片的横坐标和纵坐标组成,横坐标是时间,在坐标轴下,数字的纵坐标是固定的,横坐标不定。另外一个是价格,在折现上方,横坐标和纵坐标位置飘忽不定。
3、数字长度不固定,多少位的都有可能,有的有小数点,有的没有。
4、数据的个数是不定的,有可能是4组,也有可能是七八组。
5、数字还算是干净,不像很多验证码都加早点、扭曲、干扰线什么的。
我也没弄过验证码识别和图片识别,就边搜索边凭着感觉摸着来了:
步骤一:安装PIL
用Python干这活应该是要用PIL对图片进行预处理的,先下载安装一下:http://www