论文精讲 | 基于昇思MindSpore评测的FLAG3D——自然语言引导的三维健身动作数据集

论文标题

FLAG3D: A 3D Fitness Activity Dataset with Language Instruction

论文来源

CVPR 2023

论文链接

https://openaccess.thecvf.com/content/CVPR2023/html/Tang_FLAG3D_A_3D_Fitness_Activity_Dataset_With_Language_Instruction_CVPR_2023_paper.html

数据集和代码链接

https://andytang15.github.io/FLAG3D

昇思MindSpore作为开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能、安全可信的体验,支持超大规模AI预训练,自2020年3月28日开源以来已超过657W+的下载量。昇思MindSpore已支持上千篇AI顶会论文,走入290+所高校进行教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟昇思MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是昇思MindSpore AI顶会论文系列第31篇,我选择了来自清华大学深圳国际研究生院的唐彦嵩老师团队发表CVPR的一篇论文解读,感谢各位专家教授同学的投稿,更多精彩的论文精读文章和开源代码实现请扫下方二维码访问Models。

image.png

01


 

研究背景

随着时代发展科技进步,人们对于健康水平的要求越来越高,健身越来越成为一个全民爱好的运动。因此,构建一套可以感知、理解和分析健身动作的智能系统尤为重要。该系统的关键技术的核心主要是动作识别、人体表面恢复和动作生成这三个技术。动作识别是指识别出视频流序列中目标人物的动作,人体表面恢复是将视频中的人物三维建模出来,而动作生成则是通过生成模型生成出我们想要的动作序列。这些技术广泛地应用在视频问答、数字人、元宇宙、VR等领域,可以帮助我们构建一套完善、面向未来的智能健身系统。

然而,现有的这些领域中缺乏针对健身动作相关的数据集,同时,也没有面向复杂动作、高精度、泛化场景多的数据集。为此,研究者们提出了一个新的数据集 FLAG3D,包含60个丰富动作的18万个动作序列,同时提供了丰富的语言注释和三维动捕信息注释,推动了相关领域的发展。

02


 

团队介绍

论文排名第一作者唐彦嵩博士现为清华大学深圳国际研究生院助理教授、特别研究员、博士生导师,主要从事人工智能与计算机视觉等领域的相关工作,在国际权威期刊和会议上发表论文30余篇,其中以第一/通讯作者发表TPAMI等IEEE汇刊论文和CVPR等CCF A会议论文20余篇,谷歌学术引用1800余次,获2022年国际权威会议ECCV长视频实例分割赛道冠军,主持国家重点研发计划课题、国家自然科学基金青年科学基金等国家级项目,以及中国人工智能学会-昇思MindSpore学术奖励基金、中国计算机学会-腾讯犀牛鸟等校企联合项目。2021年获得吴文俊人工智能优秀博士学位论文(全国9篇),2022年由中国人工智能学会推荐(全国8名推荐人选之一)入选第八届中国科协青年人才托举工程,2023年入选微软亚洲研究院“铸星计划”。担任2022年人脸与手势识别领域重要国际会议IEEE International Conference on Automatic Face and Gesture Recognition领域主席,中国人工智能学会模式识别专业委员会副秘书长等学术职务。

论文主通讯作者李秀为清华大学深圳国际研究生院教授,博士生导师,深圳市人工智能学会副理事长、广东省人工智能与机器人学会理事。研究方向为智能系统、数据挖掘与模式识别。在国内外重要学术期刊或会议上发表学术论文100余篇。论文在Web of Science 核心数据库中被他引500多次,在google scholar上被引用7000多次。获得国家发明专利授权7项,国家软件著作权5项。作为项目负责人,完成国家自然科学基金项目3项,深圳市基础研究项目2项,深圳市技术开发项目1项;作为子课题负责人,完成国家863项目4项;目前在研863重大项目1项,国家自然科学基金1项。

03


 

论文简介

随着健身运动在全球范围内的不断普及,健身活动分析已成为计算机视觉领域的一个新兴研究课题。在最近提出各种新的任务和算法的同时,用户对涉及高质量数据、细粒度标签和多样化来源的数据资源的需求日益增长。在本文中,我们提出了 FLAG3D,这是一个带有语言指令的大规模3D健身活动数据集,包含60个类别的18万个序列。

image.png

图1. FLAG3D数据集概览

FLAG3D具有以下三个特点:

1) 由先进的 MoCap系统捕捉到的精确而密集的三维人体姿态,可处理复杂的人体姿态和大幅度动作。

2) 详细而专业的语言指导,可描述完成特定动作的步骤和身体姿态。

3) 由动捕系统、渲染软件和自然环境中成本低廉的智能手机提供的多种视频资源。

广泛的实验和深入的分析表明,FLAG3D对各种挑战具有重要的研究价值,如跨域人体动作识别、动态人体恢复和语言引导的人类动作生成。

image.png

表1. FLAG3D数据集与其他相关数据集的比较

本文中,昇思MindSpore的实现基本可以分为三个部分,由GeneratorDataset构建的数据集采样部分,在Cell下由nn和ops构建的模型部分和由value_and_grad支持的训练部分。昇思MindSpore框架下各个接口定义清晰且调用方便,在训练阶段的优化器和求解计算图中采用了更高效的设计,整体使用流畅,且官网文档描述清晰,提供了足够多的示例参考。

04


 

实验结果

在昇思MindSpore框架下,作者使用2s-AGCN和PoseC3D等主流人体骨架行为识别算法在FLAG3D数据集上进行了评测,相关结果为:2s-AGCN在FLAG3D (Out-domain)上准确率为81.5%,在FLAG3D (In-domain)上准确率为98.6%,PoseC3D在FLAG3D (Out-domain)上准确率为79.9%。相关结果说明了在In-domain的实验设置上,传统方法已经能取得不错的效果,但是在Out-domain等实验设置上,依然有很大的空间有待后续工作进行研究。

与其他框架不同,昇思MindSpore只有在调用grad产生反向图,因此在推理时不需要手动设置。且昇思MindSpore在接口设计,数据集构建方面等可以支持更多的参数与操作,提供了一定的自由度。这些特点使得昇思MindSpore成为一个强大而便捷的深度学习工具。

05


 

总结与展望

在本文中,我们提出了一个三维健身动作数据集FLAG3D。该数据集在骨骼精准度、语言描述粒度和来源丰富性等多个方面都优于以往的数据集。定性和定量实验结果表明,FLAG3D对跨域人体动作识别、动态人体恢复和语言引导的人类动作生成等多项任务提出了新的挑战。

昇思MindSpore在设计上注重灵活性和易用性,为开发者提供了一个强大而友好的深度学习工具。且昇思MindSpore社区发展日渐壮大,版本迭代迅速,每个版本的更新都会带来更多方便的接口。未来,昇思MindSpore会在深度学习框架领域发挥更大的作用,随着框架的不断发展和社区的壮大,我们可以期待更多的创新和应用案例。希望大家一起建设一个活跃、友好的社区,扩大开发者和用户的基础,创建更多的文档和示例相互学习,共同推动昇思MindSpore的成长。



往期回顾

论文精讲 | 基于昇思MindSpore的加速对抗训练算法,可显著减少训练时间

论文精讲 | 基于昇思MindSpore的联合矫正与细化平衡低光照图像增强

论文精讲 | 基于昇思MindSpore片段级异常注意力的弱监督视频异常检测

论文精讲 | 基于昇思MindSpore的动态加权对抗学习DWAL提升模型性能

  • 16
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值