机器学习应用--计算机视觉相关介绍

应用-计算机视觉

前面我们了解了机器学习的常见应用之一,推荐系统。

现在我们再来看一下另一个常见应用,计算机视觉。

我们最为常见的一个功能,图片文字识别,语音转文字,不管是qq还是微信,都有这样的功能。

它是如何实现的呢?

图像识别

  1. 首先提取出包含文字的图片。
  2. 将文字切开。
  3. 识别文字。

在这里插入图片描述

滑动窗口

如何从一张照片中识别出那部分属于文字。

我们可以使用一种叫做滑动窗口的算法

  1. 按照文字一般比例,使用等比例文字图片和等比例其他图片进行监督训练。在这里插入图片描述

  2. 按照等比例,对要识别的图片进行扫描,每确定一个位置,就输入到训练模型中比较,确定文字概率。

  3. 将高概率的文字区域提取出来。进入下一步文字切分。

文字切分

同样使用监督学习

按照文字分段进行训练

在这里插入图片描述

将传入的文字区域放入模型中将文字切开。

文字提取

将提取出来文字图片放入文字拟合的训练模型中。即可提取出要识别的图像文字。

数据集的制造

一个好的学习结果,其学习数据集的数量是不能少的。

如何获得更多的数据集。

  • 背景和文字颜色改变。
  • 划块后扭曲。
  • 加入噪声。

执行上界分析

一个项目中,会有很多个步骤。

例如上面的文字提取,文字图片切割,文字间的切割,文字的识别。

分清楚那一块的提高会对整体的识别准确度有所提高,就可以用更多的精力来做更有用的事情。

我们采取人工手动完成算法的功能来确保准备度。

以文字提取为例

步骤准确率提升幅度
初始系统72%
手动截出文字所在图片89%17%
手动对文字进行切分90%1%
手动对文字进行识别100%10%

可以看出,能够获得更加准确的文字图片,会使算法的准确度提升最大。因此我们应将注意力放在识别文字所在图片这个步骤上,而不是对着文字切分这个地方浪费过多注意力和时间,因为它的提升是有限的。

上界分析可以让我们将时间分配在更有效的地方,因此执行上界分析也是之后优化算法的一个必要的步骤。

参考资料

B站吴恩达机器学习相关课程:https://www.bilibili.com/video/BV164411b7dx

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值