周记 2020.3.14 新冠下春天的学习

本周学习聚焦于AI领域,深入研究了实时多人二维姿态估计算法OpenPose及视觉跟踪的Action-Decision Networks,同时对GCN进行了初步了解。OpenPose创新地使用PAFs提高姿态检测效率,而ADNet结合强化学习与监督学习实现快速目标跟踪。
摘要由CSDN通过智能技术生成

       可以说这个春天是相当不平凡了,2020年一开始,又是暗杀,又是大火,又是暴乱的,过了两天又开始瘟疫肆虐了。仔细想想,作为一个历史的见证人,我也做不了啥子,在家里好好学习,就算是为国家做贡献了。不过如果是单单学习而不去记录的话,往往会学了以后没过多少时间就把东西忘了,便决定写篇周记把相关的东西记录下。

论文阅读:

这周主要是在学习一些理论性的东西,论文比较泛的看了几篇,把我认为有意义的几篇给放一下帮助下记忆。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affifinity Fields

作者:{Zhecao, shihenw}@cmu.edu   {tsimon, yaser}@cs.cmu.edu

文章主要内容:提出了一种在图像中识别多人二维姿态的算法,就像下面这张图这样(图像来自原作者论文),其中PAFs的做法十分值得学习。

作者指出,那时候普遍使用的姿态检测的方法是先采用一个行人检测器来检测出图像中的行人,然后再对每个行人来进行姿态的解算。但是这种做法有几点不好的地方:

  1. 行人检测器不是实时生效的,就比如当两个人靠的很近的时候。在行人检测器无效的前提下不管再怎么做,都无法恢复正常的检测了。
  2. 因为要对检测到的每一个行人进行姿态的重识别,所以原本方法的计算时间随着画面中人数的增加也会线性增加。

所以作者设计了以下方法:

  1. 借用了VGG的网络结构,能够计算出整个图像中所有的人类关节区域之间的连接向量(PAFs : part affinity fields)。
  2. 以PAFs作为输入输入到下一级网络当中,来计算出每个关节的位置,输出置信度图(Part Confidence Maps)。
  3. 通过PAFs和之前计算出来的置信度图来进行解耦,最终把每个人身体姿态解算出来,由于不用一个个人,而是二分图匹配,可以参考这篇文章,所以速度快了不少。

具体如作者之前在CVPR发表的文章《Realtime Multi-Person 2D Pose Estimation using Part Affifinity Fields》中图2所描述的那样

具体网络和损失函数的计算都在文章第三部分,但其中比较值得在意的是作者在计算的过程中,用了两级的损失函数,如果是设计非端到端的网络,保证中间结果的连贯性,感觉很值得学习。

论文地址:https://arxiv.org/pdf/1812.08008.pdf (在引用文献中有该实验室先前的结果,比较好且连贯的解释了这想法的来源)

代码地址:https://github.com/CMU-Perceptual-Computing-Lab/openpose

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

作者:{yunsd101, i0you200, jychoi}@snu.ac.kr, jwchoi.pil@gmail.com, kimin.yun@etri.re.kr

文章主要内容:提出了一种网络架构,能够同时支持相当于半监督学习的强化学习和监督学习来实现目标跟踪,与以往的跟踪不同,由于是直接做的前景分离(貌似连匹配都省了,我没看出什么匹配或者演化预测的部分)所以速度要比那时候许多的网络都要快不少,下面是文章中的实验结果。

作者就检测-匹配-跟踪的CNN算法提出了一些说法,说明这种做法的往往集中于如何更好的分离目标和背景,但是往往会忽视以下问题:

  1. 搜索算法在搜索兴趣区域的时候往往是不高效的,需要在好几个候选对象中进行选择。
  2. 这种做法往往需要大量的标注数据集匹配,在一些标注少的情形下比较难以实现。

所以作者提出了以下的方法:

整个方法可以通过上述的图很好的进行阐述,主要分成以下几个步骤。

  1. F_l 的图像 通过 F_(l-1)最终计算出来的位置来进行初始化。
  2. 将F_l中选中的图块取出,并输入网络中计算,最终输出两个结果,上面的action是一串one-hot的编码,指出接着图块要向哪个方向移动,下面的confidence则是代表当前的结果是前景还是背景。
  3. F_l的土块p_t移动变成p_(t+1),不断重复这个过程,知道寻找到一个块使得状态变成停止,此刻更新位置,进入到F_(l+1)。

具体的做法,可以看下作者团队CVPR的演讲视频

强化那块的做法和DQN普遍的做法一样,作者采用了IOU > 0.7 作为奖励机制,其余机制基本是一样的,但感觉本质还是没有逃出监督学习。

作者项目页(含源码地址):https://sites.google.com/view/cvpr2017-adnet

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

其余部分,看了下关于GCN的介绍论文,GCN的介绍文章很多,下面直接丢链接

Deep Convolutional Networks on Graph-Structured Data 

Benchmarking Graph Neural Networks

如何理解 Graph Convolutional Network(GCN)?

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值