2021-“新“的开源项目之handpose_x(手势识别交互)

       

        自己从事算法工作多年,每个算法技术想要真正落地是很难的,或是经历漫长艰辛的过程才得以成功。随着时间自己更多的去思考在这个行业自己的方向、价值在哪里。在算法这个领域,我不属于学者研究型,我想这个领域大多数的同学更多的是工程落地+算法改进。至少在我的周围表现出的现象是绝大多数更甚者所有的算法模型都是借鉴开源网站项目。对我自身而言其实这没有什么不好,使项目实现更高效,风险更低,时间成本更少。但是反过来想想,自身不可替代性又在哪。单个具体算法有点功底的人都可以使用,大家训练的模型可能差距就是微小的几个百分点或是一个百分点内,可能sota(某领域目前最优秀算法)、benchmark、baseline的模型对于实际业务产生的效益没有太大区别,当然实际情况我们还是愿意使用sota模型。我只是从实际需求产出的角度考虑,自身工程落地+算法改进的角色思考,但是不能否定算法研究本身是有价值的。我也是自己在提醒自己,自己不能对于单个算法陷入很深,就算现在是sota,之后也不可能一直是sota,sota对于落地的帮助有多大,如果太注重sota视乎有点本末倒置(当然有的需求场景相差1个百分点的收益差都是巨大的,但是是个例,实际情况实际分析,这里只说大多数情况),而是要好好考虑真实需求,算法是为需求服务的,为了实现这个需求需要什么算法,怎么去组建这个算法应用系统,每个算法达到什么样的性能指标才能满足此需求,另外这个需求的满足是否算法是全部,是不是还要加入其它功能模块才能完整实现,比如适当的交互逻辑,前端界面等部分。

       前面是我心理之前的问题和思考,我现在想做一个不同类型任务的算法组件化的最小应用框架,我说的不同类型任务,比如视觉方面:1)分类识别,2)目标检测,3)关键点回归,4)姿态估计,5)实例/语义分割,6)度量学习,7)ocr识别等等不同任务,甚至NLP不同任务。而很受欢迎的开源项目mmdetection在我的觉得它就是一个多元化的目标检测算法组件,都是属于目标检测类型。这里我这样去定义也是从项目的实现角度去考虑,项目一般不是由多个检测模型就能实现,它会用不同类型任务模型去组合实现。大家可以思考自己见过的项目产品是否是这样,这也是目前我的单个开源项目是很独立的不同的任务类型。

       客观的讲,单个开源项目本身对于大家的吸引力其实没有啥(当然每个项目规整好的开源数据集和预训练模型还是有少许吸引力的),大家也能从其它开源网站获取同类型任务的算法项目,甚至是更好的sota算法项目。但是我用这些不同任务类型的算法组件构建的手势交互识别书中的狗狗种类的应用demo,对于大家是有吸引力的,他可能具有潜在需求。从技术实现的角度分析它也是一个多任务算法组件实现的,且加入了算法模型外的交互逻辑等部分。

       该系统(虽然demo很demo但是暂且方便叫它为一个系统)具体包括:
       1)深度学习算法模型部分
            A、目标检测(手的检测)   ,B、关键点回归(手的21个关键点),C、分类识别(狗狗分类识别)

       2)物体跟踪部分

           A、物体跟踪传统算法(服务于触发识别物体的交互逻辑)
      3)识别触发逻辑部分
           A、两只手位置稳定,即代表用户想知道某个特定信息,而特定信息的位置,是通过两只手的食指构成的边界框区域确定。当然后面还可以继续改进比如加上两只手同时为one的静态手势,这样会减少出现识别误触发信号。(后面我又发了一个单手指+静态手势的区域选择交互demo,我想抛我这个砖引同学们的玉,集思广益,更好的交互方式,更好的算法实现架构,更好的实际需求挖掘,更好的落地)。

      之后我会继续发布不同开源项目,同时我也在构建不同类型任务的算法组件化的最小应用框架也会发布alpha版本,目前考虑第一个案例就拿手势交互这个场景去做最小应用框架的demo,当然我的很多想法可能不成熟,但是我觉得还是继续推进,在实际应用中去检验试错,它是我目前看到的方向。我的期望是让AI技术“普惠”,让其服务于更多的人和需求,让项目、产品落地实现者更加高效,项目试错成本更低,更快的产生收益。

      就讲那么多,项目开源地址:https://codechina.csdn.net/EricLee/handpose_x

     哔哩哔哩视频地址:https://www.bilibili.com/video/BV1nb4y1R7Zh/

                                     https://www.bilibili.com/video/BV1Bb4y1R7sd/

     不早了,在这里我还是不忘记上项目的demo视频。

开源项目 - 手势识别 ,静态手势 ,单手UI交互, 物体(ocr)识别 ,增强现实 AR手势识别

开源项目 - 手势识别 hand pose 手势 UI 交互识别 增强现实 AR手势识别


    

  • 43
    点赞
  • 124
    收藏
    觉得还不错? 一键收藏
  • 36
    评论
### 回答1: ffmpeg-2021-08-08-git-ac0408522a是一个开源的音视频处理工具,它可以在多个平台上进行编译和安装。该版本是2021年8月8日的最版本,使用了ac0408522a的Git提交ID。 full_build表示这个版本是一个完整的构建版本,它包含了所有的功能和模块。在编译过程中,会将ffmpeg的所有组件和依赖项都包含进去,以便用户可以使用和访问所有的功能。 通过使用该版本的ffmpeg,用户可以进行各种音视频处理任务,例如转码、剪辑、合并、分割、提取音频等等。它支持多种音视频格式,包括但不限于MP4、AVI、MKV、MP3、AAC等。用户可以根据自己的需求选择不同的输入和输出格式,并且可以自定义各种编解码参数。 此外,ffmpeg还提供了丰富的命令行选项和参数,以便用户可以灵活地控制和配置转码过程。用户可以通过给定不同的命令行选项来指定输入文件、输出文件、编码方式、视频尺寸、比特率、帧率等等,以达到不同的处理目的。 需要注意的是,由于ffmpeg是一个功能强大且复杂的工具,对于初学者来说可能需要一定的学习和实践才能熟练掌握。因此,建议用户在使用之前先阅读官方文档或者参考相关教程,以便更好地了解和使用ffmpeg的功能。 ### 回答2: ffmpeg-2021-08-08-git-ac0408522a-full_build 是一个版本号为 ac0408522a 的 ffmpeg 软件的完整构建版。 FFmpeg 是一个开源的音视频处理工具,能够对音视频进行转码、混流、剪辑等操作。它提供了很多功能丰富的命令行工具,可以满足各种音视频处理需求。 这个版本的 ffmpeg 是在 2021 年 8 月 8 日基于 ac0408522a 提交的代码所编译而成。ac0408522a 是版本的特定标识符,用于追踪、识别和检索代码库中的不同版本。 full_build 表示这个版本是基于完整构建进行的,即所有功能和特性都被包含在内。这意味着在这个版本中,你可以使用 FFmpeg 提供的所有命令和选项,无需额外编译或安装其他附加组件。 对于想要使用 FFmpeg 进行音视频处理的用户来说,这个完整构建版提供了方便和易用性。用户可以通过命令行调用 ffmpeg 工具,并根据自己的需求使用不同的参数和选项,完成各种音视频处理任务,如转码、剪辑、添加字幕、提取音频等等。 由于 FFmpeg 是一个持续更和发展的开源项目的版本可能会修复漏洞、增加的功能或性能改进。因此,使用最的版本可以获得更好的用户体验和更高的稳定性。 总之,ffmpeg-2021-08-08-git-ac0408522a-full_build 是基于 ac0408522a 提交的代码所编译而成的一个完整构建版的 FFmpeg 软件,用户可以使用其中的功能丰富的命令行工具来进行音视频处理。
评论 36
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值