(哥俩好)Multiview Bootstrapping:多视角采集图像,破解手部细节数据标注难题

Hand Keypoint Detection in Single Images using Multiview Bootstrapping,2017


自说自话:

  • 这篇文章主要采用多个相机拍摄,解决手部细节数据难以标注的问题(手指灵活、容易遮挡);
  • 采用迭代地逐步丰富训练样本、优化模型的策略,从初始的 basic 检测器逐步提升表现;
  • 我自己觉得这个策略不好的地方就是复现的门槛更高了,因为有硬件(多角度图像采集设备),还要做 3D 数据之间的映射,数据逐步丰富的过程也是严重依赖人工调整,对个人而言不太玩得起,不仅仅只需要电脑了,还需要团队和场地。场地可以看下图,是一个专门的房间:

在这里插入图片描述

Abstract

  • 使用多目视觉系统协助训练细粒度的手部关键点检测Multiview bootstrapping,作者称其为多视角引导。
  • 首先,进行较为粗糙的、初始的关键点检测,来生成含有噪声的检测结果作为 label;其次,使用 multiview geometry 进行 3D 三角剖分,或者被标记为 outlier;最后,reprojected 之后的信息被当做 label 丰富训练集训练更优的检测器。
  • 上述过程迭代地进行,每次迭代都会生成更多的训练数据。在给定模型目标的前提下,还推导了达成该目标所需要的最小视角数量。
  • 输出的模型可以在单张 RGB 图像上生成 2D 关键点检测(如图 1 左图所示),还可以通过三角剖分输出 3D 信息(如图 1 右图所示),效果堪比用 depth 传感器的方法。

在这里插入图片描述

Introduction

手作为人体的一部分充当着极其重要的角色,但是遗憾的是,不同于人脸或者肢体,手部的详细标注数据极其得少。因为各种原因,手部容易出现遮挡,这对人为标注都造成了很大的困扰。如下图 2 所示:

在这里插入图片描述
本文提出了一种解决这个困境的方法/策略/流程,作者称其为 Multiview bootstrapping,基本出发点为,即使在某个角度出现了某些信息的遮挡,在其他角度,这些信息是可以被观察到的(多目视觉)。整个策略的流程分为以下几个步骤:

  • 通过较小的标注数据集训练一个初始检测器,检测一些有良好视角的手部关键点,并且通过鲁棒的 3D 三角剖分来滤出一些错误的检测;
  • 被遮挡的部分信息未被初始检测器成功检测到,这部分通过 reprojection 3D 手部信息来进行标注
  • 前面直接检测得到的 + 补充标注的作为扩充后的训练集,继续用于训练检测器,如此迭代进行,逐步提升检测器性能
  • 在多视角应用这个检测器还可以重建 3D 信息。

Related Work

Multiview Bootsrapped Training

这部分原文是用数学符号来讲的,但其实还是在反复说明摘要以及介绍中的过程。

  • 手部关键点检测器可以看作是一个映射 d ( ⋅ ) d(\cdot) d(),将输入的三维图像 I ∈ R w ∗ h ∗ 3 I \in \mathcal R ^{w * h*3} IRwh3,映射为 P 个(种/类)关键点(比如右手拇指尖儿,而且同一张图,某一类关键点最多只能有一个)的位置信息 x p ∈ R 2 x_p \in \mathcal R^2 xpR2,位置信息是携带了 confidence c p c_p cp 的,这个过程连起来就是: d ( I ) → { ( x p , c p ) f o r p ∈ [ 1 , . . . , P ] } d(I) \rightarrow \{(x_p, c_p) for p \in [1, ..., P]\} d(I){(xp,cp)forp[1,...,P]}
  • 刚刚说的输入图像 I I I 在本文中是按照 frame 来衡量的(因为同一个 pose 同时被很多个相机采集,同一个 pose 某个时刻被多个相机采到多张图片的就叫一个 frame,一个 frame 中的所有图片包含的实际 3D 信息一致);
  • 此时初始标注的训练集叫 T 0 \mathcal{T_0} T0,使用这个训练集得到初始的检测器 d 0 d_0 d0
  • 刚刚说了,同一个 pose 是有多个相机一起采集的,所以 d 0 d_0 d0 检测得不好的地方,可以通过 3D 重建来恢复出来,得到新的数据集 T 1 \mathcal T_1 T1,新数据集和之前的数据集合并在一起,使得训练集质量整体得以提升,继而训练更好的检测器 d 1 d_1 d1

上述这个过程,可以通过图 3 来说明:

在这里插入图片描述

  • 图 3 中所有的子图都是同一个 pose,只是来自于不同摄像机;
  • 图 a 展示的视角(有两个)比较好,所以初始的检测器能够比较好地检测到正确合适的结果;
  • 通过图 a 两个视角(或者更多个视角)可以 3D 重建出来这个 pose 的 3D 信息(双目视觉或者多目视觉),得到图 b;
  • 图 c 中是初始检测器的检测结果,可以看到,这个角度比较刁钻,一开始检测器并没有给出很好的结果;
  • 针对图 c 这种情况,结合图 b 得到的 3D 信息,将其映射到图 c 对应的坐标系中,得到图 d,“补充标注”数据;
  • 图 d 汇总到整体的训练集中,用于迭代训练,得到更好的检测器,之后可以成功检测到原本不能检测的关键点,也就是图 e 所示。

下图 4 是手指关键点示意图:
在这里插入图片描述

具体算法实施时,要考虑到可能有些 pose/frame 很难正确地 3D 重建(遮挡极其严重,多个视角都没有明确清晰地展示关键点信息),这种 pose/frame 就会通过打分被删除掉,只有分数满足要求的 pose/frame 才会保存其对应的 V 个视角。所以会多一个 scoring and sorting triangulated frames 的步骤。算法流程如下,其中标红的 3 个步骤也就是论文接下来讲述的 3 个步骤。

在这里插入图片描述

Triangulating Keypoints from Weak Detections

多视角重建 3D 信息如图所示,相机标定之后,重建工作就可以实现。
在这里插入图片描述

Scoring and Sorting Triangulated Frames

Retraining with N-best Reprojections

Detection Architecture

Keypoint Detection via Confidence Maps

这部分是分阶段的,非常类似 OpenPose 论文 PAF 中多阶段的训练,只是这里就一个分支而已,一共 6 个 stage,我懒得再写了……

Hand Bounding Box Detection

这里手部关键点的检测,必须依赖一个初步的“手部”大致的检测,也就是应该送进来手部站 C 位的图片来处理。这里论文说用的就是 OpenPose 的 PAF 论文里面的模型做身体检测,检测到手腕了,再来这儿检测手的细节信息。模型只做一只手,另一只手直接镜像拿来做。

When dose Multiview Bootstrapping Work?

这部分做了在给定视角数量前提下一个初始的 detector 应该具备什么样的性能,以及在给定初始 detector 性能的前提下至少需要多少个不同的视角的讨论,因为时间有点紧张,暂时不写这部分的分析学习了。

Evaluation

Improvement with Multiview Bootstrapping

Comparison to Depth-based Methods

Markerledd Hand Motion Capture

Discussion

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一款基于“正则表达式”的功能强大的文本搜索,替换工具。支持从RAR,ZIP,ISO,7z,gzip,bzip等压缩包中提取文件,支持从txt,doc,pdf,exl等文件中搜索。 功能非常强大,Enjoy It! 这里是最新的v4.1版本,0day完美注册版! ============================================= PowerGREP,号称“The Most Powerful GREP Tool for Windows”,windows下最强大的GREP工具。看清楚了,是最强大,而非之一。与RegexBuddy一样,也是商业软件,其售价为US$149.00,合人民币1000有奇。如果说RegexBuddy是撰写正则式的贴心助手,那么PowerGREP则是应用正则式在文本文件中搜索替换的强大工具。现在我们看看,它究竟有什么功能敢号称最强。 基本界面 点击可以看大图。另外,还有一组图片来自powergrep官网,附上了官网的部分介绍,以及个人评论。 内容搜索图片,点这里; 在本抓图中,我搜索了c:\My Documents\My Web Sites文件夹及其子目录下所有的html文件。我使用了一条正则表达式把搜索范围限定在HTML tag之内,使用另一条正则式在这些标记中搜索所有的email地址。 搜索和替换,点这里和这里; 一个好用的功能是可以预览结果而不是立即替换。匹配结果以黄色标出。双击匹配就能打开对应的文档并检验其内容。 点击执行后,颜色改变,表示已经实施替换。 收集信息和统计数据,点这里; 本例是“检测Apache网络日志--google search terms”的例子。本例使用的正则式在PowerGREP帮助文档中有详细讲解。 灵活的“撤消”历史记录,让你不再抓狂,点这里; 在执行替换的同时,PowerGREP已经备份了原文件。只要你没有手动删除这些备份的文件,你可以随便撤消你做过的任何操作。世界上真有后悔药的呀。 搜索PDF文档,点这里; PDF也能使用正则式进行搜索?当然了,你没有看错。只是,要确保PDF文档中你要搜索的内容是文字而非图像。也就是说,扫描版的PDF不享受此功能的哟。 在MS word 文档中搜索,点这里; 这个功能也十分有用。我记得还有个东东叫ViEmu for Word & Outlook,可以在word和outlook中模拟vim,当然可以使用正则式搜索替换了。不过,ViEmu一来也是收费软件(在2008年5月31日之前是79美刀,之后是99美刀),我还没有找到免费版本;二来其正则式是vim风格的,只习惯Perl风格的同学可能不太习惯。在google documents里也支持正则式搜索了,具体语法、风格尚未广泛测试。 在MS Excel中搜索,点这里; 同样也是批量搜索、替换。不单单是对一个文档、一个sheet。 以16进制模式,在2进制文档中搜索,点这里; 跟二进制编辑器界面类似,多了正则式批量搜索替换功能。 在zip压缩文档中搜索,点这里; 把zip文件当作普通文件夹来搜索。很强大吧? 正则表达式序列,点这里; 大多数正则式工具一次只支持一条正则式的操作。而PowerGREP可以一次执行多条正则式!使用checkbox来进行多项选择。 定制颜色显示,点这里; 该功能比较一般。除非软件中的颜色设置特傻,一般我是不会改变默认颜色搭配的。 功能演示 PowerGREP官网还提供了一组flash做的demo,见下。 使用正则式匹配email地址(2′47”)。点这里; 升级版权信息(3′38)。点这里; 与RegexBuddy的无缝链接(1′57”),点这里;两个软件是亲兄弟,当然哥俩好啦! 文件选择(3′08”),点这里;PowerGREP提供了贴心的特性,来帮助你筛选需要的文档。 其它特性(8′37”),点这里;总而言之,PowerGREP是功能强大。自己发掘吧! ============================================ 苘苘苘苘苘苘苘苘苘苘苘苘苘苘苘苘苘苘? 圻 苘苘苘 ?苘苘苘 ?苘苘苘 ?苘苘苘 卟 懿 圹? 圹?圹? 圹?圹? 圹?圹? 圹?? ?苒鄄 圹?圹? 圹?圹? 圹?圹? 圹?? 圮 苒鄄 圹?苒鄄 圹? 圹?圹? 圹?? ?苒圻 圹? 苘?圹圮苘? 圹? 圹?? ?圹? 圹?圹? 圹?圹? 圹?圹? 圹??x!FEAR ?圹曹苒鄄 咣曹苒圻 圹? 圹?咣曹苒圻 ? 哕 ? ? ? 圹曹 曹苘圻哌 ? 安圮 苘? 懿圹? 捱 咻圮? 苘苘哕 佰圹?? 苒圹?苒圻斑圹?捋苒葸圹圹圮圹圹圹策 佰? ? 苘? 苘苘苘 佰圹? 甙圹郯鄄甙? 圹?圹郯?斑咣圹甙 苓 ? 捋? 懿圯 懿圹哌卟圹曹 佰圹? 佰圹佰圹? 圹郯圹郯 圹舶 卟?佰圹? 稗圹蒉槽郯? 圹圹莅 佰圹? 佰圹佰圹? 圹郯圹郯 圹郯 败苘 圹圹曹 稗圹蒉圹莅 捋圹莅 佰圹? 佰圹佰圹苘苘 咣郯圹郯 圹郯 槽郯 圹郯咣圮 稗圹蒉圹莅 鞍鞍? 佰圹? ? 佰圹佰圹鞍鞍 圹郯圹郯 圹郯 圹郯 圹郯 斑鄄苻圹蒉圹莅 苘苘? 安圹败圻圮 佰圹佰圹? 圹郯圹郯 圹郯 佰圹?圹郯 ?咣圹圯捋圯? 薏圹莅 安槽圻鞍斑曹槽郯圹郯 圹郯圹郯 圹郯 佰圹?鄄郯 鞍圹圯捋圯? 佰圹莅 安圻鞍 鞍咣槽佰圹? 槽郯鄄郯 鄄郯 安圹?槽郯 稗槽蒉鄄莅 佰圹莅 斑鞍 鞍咣安圹? 懿槽安圹? 懿圹? 鄄郯 鄄郯? 稗圹蒉槽圹圹圹圹鄄莅 ?苘苘苘苘苘? 咣郯 苘苘苘苘苘苘懿 苘? 捱 咻 苘苘?苘苘? 苘苘苘 苘苘苘 ? 哕 ?圹? 捋懿蒇鄄 圹? 圹?圹? 圹?? ? ? ?圹? 圹?圹? 圹? 圹?圹? 圹?? ? ? ?圹策? 圹?圹? 圹? 圹?圹?苒鄄 ? ? ? ?圹? 苘?圹?圹? 圹? 圹?圹? 苘?? ? ? ?圹? 圹?圹?圹? 圹? 圹?圹? 圹?? ? ?咣曹苒鄄 圹?圹? 圹? 圹圮咣曹苒圻 ? 咣苘苘苘苘苒鄄 苘苘苘苘苘苘苘苘苘苘苘策 谀哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目 楚? ?RELEASE iNFORMATiON ? ? 滥履哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪馁 嘲?SOFTWARE NAME : PowerGREP v4.1.0 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪穆哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?PROTECTiON : NONE ? CRACKER : TEAM Z.W.T 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪呐哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?RELEASE TYPE : RETAiL ? SUPPLiER : TEAM Z.W.T 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪呐哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?RELEASE DATE : 2010-06-08 ? PACKER : TEAM Z.W.T 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪呐哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?LANGUAGE : ENGLiSH ? SiZE : 03 x 5.00MB 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪呐哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?FORMAT : ZIP/RAR ? ZiP NAME : zjpg410*.zip 谀聊哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪牧哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目 楚? ?ADDiTiONAL NOTES ? ? 滥履哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪馁 嘲?COMPANY : Just Great Software Co. Ltd. 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?PLATFORM : WiNALL 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?SOFTWARE TYPE : UTiLiTY 嘲媚哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪宁 嘲?URL : http://www.powergrep.com/ 谀聊哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪目 楚? ?RELEASE NOTES ? ? 滥哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪哪馁 PowerGREP is a powerful Windows grep tool. Quickly search through large numbers of files on your PC or network, including text and binary files, compressed archives, MS Word documents, Excel spreadsheets, PDF files, OpenOffice files, etc. Find the information you want with powerful text patterns (regular expressions) specifying the form of what you want, instead of literal text. Search and replace with one or many regular expressions to

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值