task2 ocr识别改进

1 图像处理

    输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

也可以进行去除噪声,通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。

 对摄像头拍摄的图片,大多数是彩色图片,彩色图像所含的信息量巨大,对于图片的内容,我们可以简单的分为前景和背景,为了让计算机更快的,更好的识别文字,我们可以简单地分为前景和背景,为了让计算机更快的,更好的识别文字,我们需要对彩色图进行处理,使图片只剩下前景信息和背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图

2 多模态处理

  本次比赛提供的csv文件中,目的是通过图像识别出文字信息,类似于多模态的任务,而不是简单的目标检测等分类任务,因此对图像中文字的识别需要格外用心,精度要求很高,同时识别出的文字信息,未来也可以做为多模态系统的nlp部分,达到cv与nlp的结合

3 数据调参

因为本次模型大家通用的是paddle ocr 的库,因此主要精力是放在模型调参上,一般遵循 batsize由小到大等环节,bert中的batchsize一般遵循8-16-32等规则,可以自行探索相关要求

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值