yolov5论文_YOLOv5的妙用:学习手语,帮助听力障碍群体

选自Medium

作者: David Lee 机器之心编译 编辑:魔王、杜伟

计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?数据科学家 David Lee 用一个项目给出了答案。

如果听不到了,你会怎么办?如果只能用手语交流呢?

8a4ed0b1879183f190ee1faae56e1b96.gif

当对方无法理解你时,即使像订餐、讨论财务事项,甚至和朋友家人对话这样简单的事情也可能令你气馁。 对普通人而言轻轻松松的事情对于听障群体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无法获取合格的翻译服务,从而导致失业、社会隔绝和公共卫生问题。 为了让更多人听到听障群体的声音,数据科学家 David Lee 尝试利用数据科学项目来解决这一问题:
计算机视觉可以学习美式手语,进而帮助听力障碍群体吗?
如果通过机器学习应用可以精确地翻译美式手语,即使从最基础的字母表开始,我们也能向着为听力障碍群体提供更多的便利和教育资源前进一步。 数据和项目介绍 出于多种原因,David Lee 决定创建一个原始图像数据集。首先,基于移动设备或摄像头设置想要的环境,需要的分辨率一般是 720p 或 1080p。现有的几个数据集分辨率较低,而且很多不包括字母「J」和「Z」,因为这两个字母需要一些动作才能完成。

c33ac4a6c50dbd3a3539402b5543fc56.png

为此,David Lee 在社交平台上发送了手语图像数据收集请求,介绍了这个项目和如何提交手语图像的说明,希望借此提高大家的认识并收集数据。 项目地址:https://github.com/insigh1/GA_Data_Science_Capstone 数据变形和过采样 David Lee 为该项目收集了 720 张图片,其中还有几张是他自己的手部图像。由于这个数据集规模较小,于是 David 使用 labelImg 软件手动进行边界框标记,设置变换函数的概率以基于同一张图像创建多个实例,每个实例上的边界框有所不同。 下图展示了数据增强示例:

74430bbb6dcb7ade06a4622cc5761a7f.png

经过数据增强后,该数据集的规模从 720 张图像扩展到 18,000 张图像建模 David 选择使用 YOLOv5 进行建模。将数据集中 90% 的图像用作训练数据,10% 的图像用作验证集。使用迁移学习和 YOLOv5m 预训练权重训练 300 个 epoch。

7f5d7317cf6f5edc5dfaa97fb065d686.png

在验证集上成功创建具备标签和预测置信度的新边界框。

4dc4a4064ee8d219fd08f5eb9a6e8351.png

由于损失值并未出现增长,表明模型未过拟合,因此该模型或许可以训练更多轮次。 模型最终获得了 85.27% 的 mAP@.5:.95 分数。 图像推断测试 David 额外收集了他儿子的手部图像数据作为测试集。事实上,还没有儿童手部图像用于训练该模型。理想情况下,再多几张图像有助于展示模型的性能,但这只是个开始。

b80e94739f0a9154628de18131012120.png

26 个字母中,有 4 个没有预测结果(分别是 G、H、J 和 Z)。 四个没有得到准确预测:
  • D 被预测为 F;

  • E 被预测为 T;

  • P 被预测为 Q;

  • R 被预测为 U。

视频推断测试

8a4ed0b1879183f190ee1faae56e1b96.gif

‍即使只有几个手部图像用于训练,模型仍能在如此小的数据集上展现不错的性能,而且还能以一定的速度提供优秀的预测结果,这一结果表现出了很大的潜力。 更多数据有助于创建可在多种新环境中使用的模型。 如以上视频所示,即使字母有一部分出框了,模型仍能给出不错的预测结果。最令人惊讶的是,字母 J 和 Z 也得到了准确识别。 ‍ ‍其他测试 David 还执行了其他一些测试,例如: 左手手语测试

fe64216b427552452ca346ede063ab3d.gif

几乎所有原始图像都显示的是右手,但 David 惊喜地发现数据增强在这里起到了作用,因为有 50% 的可能性是针对左手用户进行水平翻转。 ‍儿童手语测试

c65fe8b0e23942a4b0d1b7c0522c5abe.gif

‍David 儿子的手语数据未被用于训练集,但模型对此仍有不错的预测。 ‍多实例

e18ae15029cb8d2cc9f7500ad72e6819.gif

‍ 尽管手语的使用和视频中有所不同,但这个示例表明当多个人出现在屏幕上时,模型可以分辨出不止一个手语实例。 模型局限性 David 发现,该模型还有一些地方有待改进。 距离

57114ad1cf547ae167184dd3648b66e2.gif

许多原始图像是用手机拍摄的,手到摄像头的距离比较近,这对远距离推断有一定负面影响。 新环境

7b8146e57f36e4c40ad22fc27fc17c4c.gif

‍ 这支视频来自于志愿者,未用于模型训练。尽管模型看到过很多字母,但对此的预测置信度较低,还有一些错误分类。 ‍背景推断

6c28ce47ada41ac0637fbb03724c2621.gif

该测试旨在验证不同的背景会影响模型的性能。 结论 这个项目表明:计算机视觉可用于帮助听力障碍群体获取更多便利和教育资源! 该模型在仅使用小型数据集的情况下仍能取得不错的性能。即使对于不同环境中的不同手部,模型也能实现良好的检测结果。而且一些局限性是可以通过更多训练数据得到解决的。经过调整和数据集的扩大,该模型或许可以扩展到美式手语字母表以外的场景。

aee7604154a640b9d1a6615037a90f7a.gif

资源
  • Yolov5 GitHub 项目:https://github.com/ultralytics/yolov5

  • Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt

  • Cudnn 安装指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

  • OpenCV 安装指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8

  • Roboflow 增强流程:https://docs.roboflow.com/image-transformations/image-augmentation

  • 常用图像数据增强技术综述论文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3

  • Pillow 库:https://pillow.readthedocs.io/en/latest/handbook/index.html

  • labelImg:https://github.com/tzutalin/labelImg

  • Albumentations 库:https://github.com/albumentations-team/albumentations

原文链接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614

Amazon SageMaker实战教程(视频回顾)

Amazon SageMaker 是一项完全托管的服务,可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作,让开发高质量模型变得更加轻松。

10月15日-10月22日,机器之心联合AWS举办3次线上分享,全程回顾如下:

fa3645b8d5e4b64e21976a21fae9f9b9.png

第一讲:Amazon SageMaker Studio详解 黄德滨(AWS资深解决方案架构师)主要介绍了Amazon SageMaker的相关组件,如studio、autopilot等,并通过在线演示展示这些核心组件对AI模型开发效率的提升。

视频回顾地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715443e4b005221d8ea8e3

923112e091f4dcac1900936604499a78.png 第二讲:使用Amazon SageMaker 构建一个情感分析「机器人」 刘俊逸(AWS应用科学家) 主要介绍了情感分析任务背景、使用Amazon SageMaker进行基于Bert的情感分析模型训练、利用AWS数字资产盘活解决方案进行基于容器的模型部署。

视频回顾地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d38e4b0e95a89c1713f

5ffd827c98d446341ee2a5c12a297562.png 第三讲:DGL图神经网络及其在Amazon SageMaker上的实践 张建(AWS上海人工智能研究院资深数据科学家)主要介绍了图神经网络、DGL在图神经网络中的作用、图神经网络和DGL在欺诈检测中的应用和使用Amazon SageMaker部署和管理图神经网络模型的实时推断。 视频回顾地址: https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d6fe4b005221d8eac5d

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值