一、背景
爬取自如网的租房信息时,本来以为是手到擒来的事,结果却被租房价格卡死了。有脾气的自如,价格居然搞成了照片,并且照片是乱序的0到9,每次根据像素位截取。
最气人的,还是一张照片只取一个数字,例如价格是“1490”,它就要由四张照片和四个像素位组合来取,如下图。
二、解决价格问题
解决价格问题,最传统的是思路,应该就是先把数字照片识别出来,然后根据像素位取出数字,再把数字组合成价格。
2.1、图片识别
图片识别这里使用tesserocr库,这个库是开源的类库,专门用来进行图文识别的,tesserocr库是基于Tesseract软件开发的,因此,要想使用tesserocr前,需要先安装tesseract。简单说一下windows环境下安装过程中的注意事项。
tesseract安装
Windows下下载地址: https://digi.bib.uni-mannheim.de/tesseract/
注意,文件带dev的是开发版本,不带dev的是稳定版本,咱们小老百姓,选择稳定版就行了。
安装过程注意事项:
1、勾选Additional language data(download)选项,这样可以识别多国语言(要下载1G多的东西,有点慢)
2、配置环境变量。复制你的安装地址,进入“控制面板-系统和安全-系统”,点击“系统保护”,点击环境变量,把刚才的安装路径Path,注意,添加时候开头用“;”跟之前的变量隔开。添加完毕后到命令窗口cmd中输入:tesseract -v,如果可以看到版本信息即为成功
3、因为没有配置全局变量,无法跨盘执行数据转换,这里我们在环境变量那增加一个配置信息。系统变量>新建:增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径
安装过程可参考: