python 爬取自如网租房信息(解决照片价格问题)

一、背景 

爬取自如网的租房信息时,本来以为是手到擒来的事,结果却被租房价格卡死了。有脾气的自如,价格居然搞成了照片,并且照片是乱序的0到9,每次根据像素位截取。

 最气人的,还是一张照片只取一个数字,例如价格是“1490”,它就要由四张照片和四个像素位组合来取,如下图。

 二、解决价格问题

解决价格问题,最传统的是思路,应该就是先把数字照片识别出来,然后根据像素位取出数字,再把数字组合成价格。

2.1、图片识别

图片识别这里使用tesserocr库,这个库是开源的类库,专门用来进行图文识别的,tesserocr库是基于Tesseract软件开发的,因此,要想使用tesserocr前,需要先安装tesseract。简单说一下windows环境下安装过程中的注意事项。

tesseract安装

Windows下下载地址: https://digi.bib.uni-mannheim.de/tesseract/

注意,文件带dev的是开发版本,不带dev的是稳定版本,咱们小老百姓,选择稳定版就行了。

安装过程注意事项:

1、勾选Additional language data(download)选项,这样可以识别多国语言(要下载1G多的东西,有点慢)

2、配置环境变量。复制你的安装地址,进入“控制面板-系统和安全-系统”,点击“系统保护”,点击环境变量,把刚才的安装路径Path,注意,添加时候开头用“;”跟之前的变量隔开。添加完毕后到命令窗口cmd中输入:tesseract -v,如果可以看到版本信息即为成功

3、因为没有配置全局变量,无法跨盘执行数据转换,这里我们在环境变量那增加一个配置信息。系统变量>新建:增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径

 

安装过程可参考:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值