2021-“新“的开源项目之handpose_x（手势识别交互）

最新推荐文章于 2024-08-18 10:09:48 发布

DataBall

最新推荐文章于 2024-08-18 10:09:48 发布

阅读量9.2k

点赞数 43

文章标签：深度学习算法 python 人工智能机器学习

本文链接：https://blog.csdn.net/weixin_42140236/article/details/114343870

版权

自己从事算法工作多年，每个算法技术想要真正落地是很难的，或是经历漫长艰辛的过程才得以成功。随着时间自己更多的去思考在这个行业自己的方向、价值在哪里。在算法这个领域，我不属于学者研究型，我想这个领域大多数的同学更多的是工程落地+算法改进。至少在我的周围表现出的现象是绝大多数更甚者所有的算法模型都是借鉴开源网站项目。对我自身而言其实这没有什么不好，使项目实现更高效，风险更低，时间成本更少。但是反过来想想，自身不可替代性又在哪。单个具体算法有点功底的人都可以使用，大家训练的模型可能差距就是微小的几个百分点或是一个百分点内，可能sota（某领域目前最优秀算法）、benchmark、baseline的模型对于实际业务产生的效益没有太大区别，当然实际情况我们还是愿意使用sota模型。我只是从实际需求产出的角度考虑，自身工程落地+算法改进的角色思考，但是不能否定算法研究本身是有价值的。我也是自己在提醒自己，自己不能对于单个算法陷入很深，就算现在是sota，之后也不可能一直是sota，sota对于落地的帮助有多大，如果太注重sota视乎有点本末倒置（当然有的需求场景相差1个百分点的收益差都是巨大的，但是是个例，实际情况实际分析，这里只说大多数情况），而是要好好考虑真实需求，算法是为需求服务的，为了实现这个需求需要什么算法，怎么去组建这个算法应用系统，每个算法达到什么样的性能指标才能满足此需求，另外这个需求的满足是否算法是全部，是不是还要加入其它功能模块才能完整实现，比如适当的交互逻辑，前端界面等部分。

前面是我心理之前的问题和思考，我现在想做一个不同类型任务的算法组件化的最小应用框架，我说的不同类型任务，比如视觉方面：1）分类识别，2）目标检测，3）关键点回归，4）姿态估计，5）实例/语义分割，6）度量学习，7）ocr识别等等不同任务，甚至NLP不同任务。而很受欢迎的开源项目mmdetection，在我的觉得它就是一个多元化的目标检测算法组件，都是属于目标检测类型。这里我这样去定义也是从项目的实现角度去考虑，项目一般不是由多个检测模型就能实现，它会用不同类型任务模型去组合实现。大家可以思考自己见过的项目产品是否是这样，这也是目前我的单个开源项目是很独立的不同的任务类型。

客观的讲，单个开源项目本身对于大家的吸引力其实没有啥（当然每个项目规整好的开源数据集和预训练模型还是有少许吸引力的），大家也能从其它开源网站获取同类型任务的算法项目，甚至是更好的sota算法项目。但是我用这些不同任务类型的算法组件构建的手势交互识别书中的狗狗种类的应用demo，对于大家是有吸引力的，他可能具有潜在需求。从技术实现的角度分析它也是一个多任务算法组件实现的，且加入了算法模型外的交互逻辑等部分。

该系统（虽然demo很demo但是暂且方便叫它为一个系统）具体包括：
1）深度学习算法模型部分
A、目标检测（手的检测) ,B、关键点回归（手的21个关键点）,C、分类识别（狗狗分类识别）

2）物体跟踪部分

A、物体跟踪传统算法（服务于触发识别物体的交互逻辑）
3）识别触发逻辑部分
A、两只手位置稳定，即代表用户想知道某个特定信息，而特定信息的位置，是通过两只手的食指构成的边界框区域确定。当然后面还可以继续改进比如加上两只手同时为one的静态手势，这样会减少出现识别误触发信号。（后面我又发了一个单手指+静态手势的区域选择交互demo，我想抛我这个砖引同学们的玉，集思广益，更好的交互方式，更好的算法实现架构，更好的实际需求挖掘，更好的落地）。

之后我会继续发布不同开源项目，同时我也在构建不同类型任务的算法组件化的最小应用框架也会发布alpha版本，目前考虑第一个案例就拿手势交互这个场景去做最小应用框架的demo，当然我的很多想法可能不成熟，但是我觉得还是继续推进，在实际应用中去检验试错，它是我目前看到的方向。我的期望是让AI技术“普惠”，让其服务于更多的人和需求，让项目、产品落地实现者更加高效，项目试错成本更低，更快的产生收益。

就讲那么多，项目开源地址：https://codechina.csdn.net/EricLee/handpose_x

哔哩哔哩视频地址：https://www.bilibili.com/video/BV1nb4y1R7Zh/

https://www.bilibili.com/video/BV1Bb4y1R7sd/

不早了，在这里我还是不忘记上项目的demo视频。

开源项目 - 手势识别，静态手势，单手UI交互，物体（ocr）识别，增强现实 AR手势识别

开源项目 - 手势识别 hand pose 手势 UI 交互识别增强现实 AR手势识别