![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机视觉
Swocky
这个作者很懒,什么都没留下…
展开
-
【目标检测】Towards Accurate One-Stage Object Detection with AP-Loss
one-stage目标探测器通过同时优化分类损失和定位损失进行训练,前者由于锚的数量众多而遭受极端的前景-背景类别失衡问题。本文提出了一个新颖的框架,以分级任务代替one-stage检测器中的分类任务,并采用平均精度损失(AP-loss)解决分级问题,从而缓解了这一问题。由于其不可微性和非凸性,AP损耗无法直接优化。为此,我们开发了一种新颖的优化算法,该算法将感知器学习中的错误驱动更新方案与深度网络中的反向传播算法无缝结合。我们从理论和经验上验证了所提出算法的良好收敛性。原创 2020-07-22 09:24:28 · 1137 阅读 · 0 评论 -
【行人重识别】Unsupervised Salience Learning for Person Re-identification
人眼可以基于一些较小的显着区域来识别人的身份。然而,当使用现有方法计算图像的相似度时,通常会隐藏这种有价值的显着信息。此外,许多现有的方法学习区别性特征并以监督的方式处理急剧的视点变化,并要求为不同的摄像机视图对标注新的训练数据。在本文中,我们提出了一种基于无监督显着性学习的人员重新识别的新颖视角。在训练过程中无需识别标签即可提取出独特的特征。首先,我们应用邻接约束补丁匹配来建立图像对之间的密集对应,这显示了在处理由较大视点和姿势变化引起的未对准方面的有效性。其次,我们以无人监督的方式学习人类的显着性。原创 2020-07-20 15:56:39 · 1173 阅读 · 0 评论 -
【人群计数】Crossing the Line: Crowd Counting by Integer Programming with Local Features
作者提出了一种对于视频中穿过关注线的行人数量实时整数规划方法。视频首先被转换为时序序列,然后人数会通过一系列有重叠的窗口进行估计,使用了一种从局部特征到数量的回归函数进行映射。考虑到滑动窗口中的计数是相应时间间隔内的瞬时计数之和,提出了一种整数规划方法来恢复每帧中穿过区间的行人数量。在一个特定的时间间隔内进行积分,可以得到行人过路的累计计数。原创 2020-07-13 10:17:50 · 758 阅读 · 0 评论 -
【深度学习】Image Super-Resolution Using Deep Convolutional Networks
作者提出了一种深度学习图像超分辨率的方法,直接在高低分辨率图像之间学习一个端到端的映射。作者后续还证明了传统的sparse-coding-based超分方法也可以看做一个深度卷积神经网络,相对于这种方法,作者的方法联合优化所有层。作者的深度CNN有一个轻量级的结构,实现了SOTA效果并且速度更快。作者通过在不同的网络结构和参数设置中进行探索实现了性能与速度的平衡。另外,作者还拓展网络来同时处理三色通道,并且得到了更好的全局重建性能。原创 2020-06-25 14:46:59 · 824 阅读 · 0 评论 -
【深度学习】A model-based gait recognition method with body pose and human prior knowledge
作者提出了一个新的基于模型的步态识别方法,PoseGait。步态识别是生物特征识别中一个比较有挑战且有吸引力的领域。之前的一些方法主要基于外形,而基于外形的特征通常从人的体形中提取,很容易倍计算且比较高效。然而由于很多因素,外形一般不是不变的。一个基于体形方法的替代是基于模型的方法。然而,在低分辨率下比较困难。相对于之前的方法,作者使用人体3D姿态估计作为步态识别的输入。人体3D坐标对于很多外部因素的改变是不变的。作者设计了一个3D姿态的时空特征来提高识别率。原创 2020-06-05 19:17:46 · 1463 阅读 · 1 评论 -
【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
基于图像的3D人体估计已经在深度神经网络的帮助下取得了重大的进展。即使现在很多的方法已经证明在真实世界应用的潜力,它们仍然难以产生输入图呈现出的细节。精确的预测需要更多的上下文,但是精确的预测需要高分辨率。由于硬件的内存限制,之前的很多方法把低分辨率图作为输入以涵盖更多的上下文,然后产生较低准确率的3D估计。作者通过形成一个多层次的端对端可循了结构来解决这个问题。粗略的层次在较低的分辨率下观察整个图像,并侧重于整体推理。这为通过观察高分辨率图像估计细致的几何结构提供了上下文信息。原创 2020-05-31 08:02:23 · 4594 阅读 · 5 评论 -
【三维重建】Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network
作者在本文提出了一种能够同时进行3D面目结构重建与提供密集对齐的方法。为了实现这个效果,作者设计了一个称为UV位置映射的2D表示,能够在UV空间中记录一个人脸的3D形状,然后训练一个卷积神经网络来从一张2D图像中重建这张图。本文还在训练过程中的loss里引入了一个权重mask来提高网络性能。该方法并不依赖任何先验人脸模型,并且能够伴随着语义重建整张人脸的面部几何。同时,网络非常轻量,9.8ms便可以处理一张图片,比之前很多工作速度都快。最后在多种比较有挑战性的数据集下表现出了超过SOTA的效果。原创 2020-05-30 11:15:27 · 1837 阅读 · 0 评论 -
【三维重建】Unsupervised Learning of Depth and Ego-Motion from Monocular Video
本文提出了一种基于无监督学习的新方法,对单目视频中的深度与自我运动的估计。以往的一些方法多采用像素级或基于梯度的损失,只关注在较小区域的像素。而作者提出的方法能够明确地对整个区域的3D几何进行推断,并且加强连续视频帧之间3D点云和自我运动的一致性。对于这项比较有挑战性的任务,在作者提出的对齐三维结构的新颖的反向传播算法下得以解决。作者使用从相邻帧之间得到的深度与运动信息,将3D的损失与基于帧重建光度质量的2D损失进行了结合。作者还通过加入有效性掩码来避免不存在有效信息区域的惩罚。原创 2020-05-29 16:45:35 · 975 阅读 · 0 评论 -
【三维重建】Learning the Depths of Moving People by Watching Frozen People
本文提出的方法能够在有自由移动的人的单目视频中进行深度估计,这类场景在实际应用中还是挺多的。现有的从单目视频中恢复动态非刚性物体深度的方法对物体的运动有很强的假设性,只能恢复稀疏的深度。本文的方法是数据驱动的,且来源也比较特别,来自于YouTube。由于人是固定的,训练数据可以从多个角度产生,在推断阶段正是通过视差从静止的区域来引导深度预测。作者在现实世界手握相机拍摄的视频中验证了他们的方法,并且展示出超过SOTA的效果。原创 2020-05-29 21:37:05 · 1296 阅读 · 1 评论 -
【计算机视觉】分类模型
前言终于看完了分类模型,其实最初也是冲着后面的应用“语义分析”看的。不过发现有了回归模型的基础,分类模型这一章读起来快了很多,两者交叉的内容还是很多的。不过毕竟是机器学习,基本还是概率论和优化的知识,只是选择了图片作为其应用场景。一、逻辑回归这本书的设计思路还是比较一致的,在一个简单基础的模型上不断扩展,最终得到可以解决实际问题的模型,然后再给出几个应用实例。尽管有些应用已经有了更先进的解决...原创 2020-02-12 15:38:19 · 1020 阅读 · 0 评论 -
【计算机视觉】回归模型
前言本文仍然是基于Computer Vision: Models, Learning, and Inference这本书的阅读笔记与心得。虽然看的云里雾里的,但不写下来恐怕很快一点都不记得了。看的过程还是很吃力,感觉自己在学机器学习与概率论,在公式中挣扎。本章讲的是机器学习两大问题之一的回归模型,讨论的主要是判别方法,在这些方法中全局状态的分布P(w|x)被直接建模。比如姿态估计问题,通过轮廓...原创 2020-02-10 20:00:58 · 1207 阅读 · 0 评论 -
【计算机视觉】复杂数据密度建模
前言基于对书籍Computer Vision: Models, Learning and Inference第七章的阅读,主要是自己的一些心得体会,读起来确实比较吃力,有些地方理解不够深入还请见谅,如果以后想明白了一些问题可能还会继续完善。本章主读完了感觉要还是机器学习的东西,贝叶斯、MAP、MLE之类的东西,公式基本也都是概率论和优化方面的。显然,虽有的复杂视觉数据都用正态分布来表示是不现实...原创 2020-02-06 19:49:33 · 648 阅读 · 0 评论