摘自自运营微信定阅号 创心思考 ,搜索关注获得更多内容!


图像识别的类型大致可以分为3种


1,条码,二维码:这种一般应用场景及图片规则比较明确,计算量较小,App本地就可以处理。

2,文字识别类:由于采集的图片的多样化,文本的展现形式(字体,排版)不同,识别的过程中需要辅助的方法(如圈选,点选,焦点对齐)及云端进行结果优化

3,面部识别类:这部分的能力大部分依赖于云端及面部特征集的训练。


今天重点讨论文字识别类的过种应该以多大的尺寸图片数据作为依据。

我们先了解一下文字识别的过种

1,选择一张图片(拍照,摄相,相册,网页或应用中的某张图)

2,将图片进行二值化,分为前景及背景,(注意了:一张图中有多种文字颜色)

3,噪声去掉,这块算法真心不理解,

4,倾斜矫正,通过算法验证照片是拍照时否有倾斜,同时将其矫正,后续

5,字符切割,将每个字符或单词摘出

6,字符识别,对应的字符与字库进行比对或使用特征提取的方法识别出文字


那么问题来了,由于图片的来源不确定,文字信息在图片中的大小比例也不确定。所有的工作都交给识别模块来处理,工作量是不是会很大?如果需要云端介入,网络的传输数据量会不会影响应时长?


好吧,我们假定一下图片的来源分析

1,照相及摄相:这类图片的产生来自于用户对于当前环境中的某件承载文字的物品的识别,才会使用手机进行拍照或摄像记录下文字信息。我们试的想一下,这时手机的屏幕为取景器,用户在照相或摄相时肯定会要保证关注的内容可见。那么这时,我们可以使用手机屏幕作为最大图片尺寸即可有效的识别出图片内的文字,无论手机的相素是500W,还是1500W。

2,从相册中选取:这类图片的来源比较多,可以是相机,其它应用,浏览器。但终究是在手机的屏幕下看到了该图的内容后,才会进行识别。

3,应用或浏览器:这些图片的内容源大部分都会进行尺寸优化,以减少网络流量及提高用户体验。

结论来了

图片的尺寸参考屏幕的尺寸进行缩放,这个图片应该是有效的!

如果不无效呢,是不是有必要针对特殊的图片进行手动的放大及缩小呢?

其实还是眼见为实,这是用户的心理及预期!!!

剩下的呢?

那就让用户自已选择他关注的内容吧,参考之前的图片缩放比值信息,再把选择的内容截取出来,产生的图片应该是数据量最少且有效的方案了。。。


摘自自运营微信定阅号 创心思考 ,搜索关注获得更多内容!