OCR-Android端问题总结

1 语义模型部转换

1.1 问题一:模型转换

在这里插入图片描述
我们在PC端使用的模型参数文件为pth格式,而andorid端读取模型参数格式的要求为pt,因此需要我们对模型参数进行转换。

1.2.1 解决方案一:直接转换

在这里插入图片描述
可以看到,要想转换成功,必须将模型的输出修改为tuple或NameTuple,此模型为pytorch自带的模型,因此我尝试直接修改对应文件的输出,但是依然解决不了这个问题。

1.2.2 解决方案二:重新训练模型

在之前的调研中,我们不仅找到了该语义模型,同时也找到了其训练数据,因此我们尝试自己训练模型。

2.1 问题二:模型部署问题

pc端的模型移植到android端,不仅需要读取模型参数,同时也要进行推理。

2.2.1 解决方案一:自己重写推理过程

通过潘师兄的指点,了解到我们可以自己手写推理过程,但是我们的模型的结构更加复杂,会影响到推理速度,因此我们放弃了这个方案。

2.2.2 解决方案二:Paddleseg

在不断的调研中,我们发现paddleseg上有许多的语义分割模型,且有相应的推理框架,我们只需利用我们的数据进行训练,然后部署到android端即可。

3.1 问题三:模型部署到Android端后输出错误

我们首先训练了一个deeplabv3_resnet50模型,但是该模型参数庞大,整体有150多M,不适用于android端。因此我们重新训练了一个MobileNetV3模型,只有12M,且效果与deeplabv3_resnet50差不多,但是当我们将其部署到android后,发现其输出存在问题。

3.2.1 解决方案:修改模型输出

经过我们各自调试,我们发现是模型在转换过程中出现了一定问题,具体原因尚不明确,但是我们可以看到,模型输出的图案形状是正确的,只是出现了两个相同的图案,所以我们对这个输出结果进行了加工修改,只取其1/4,并将其放大到原来的大小。

4.1 个别图片会导致程序闪退

在测试时发现,有的图片会使app直接闪退,经过debug调试,找到是语义模型输出的问题,有的图片得到的模型输出为空。
例如以下图片:

4.2 解决方案

在模型返回输出的时候,做一个简单的判断,如果输出为空,则将裁剪边框的位置,设置为图片的边界。

5.1 图片裁剪时被压缩

当图片过大时,为了使裁剪边框能够适应屏幕大小,我们对图片进行了压缩,会使裁剪后的图片变的模糊。

5.2 解决方案

我们仅在显示图片裁剪边框时,对图片进行压缩,在执行裁剪时,还是对原图进行相应操作。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值