2019年08月_元宇宙MetaAI

原创图像三维重建专题第五期-Robust Non-Rigid Motion Tracking and Surface Reconstruction Using L0 Regularization

论文链接摘要我们展示了一个新的运动跟踪技术来增强重建非刚体几何和运动从一个视角深度输入在一个消费级深度传感器。这个观点是基于观察大部分非刚体运动（尤其是人体相关运动）内在参与运动子空间。为凸显这个优点，我们提出了新的L0基于运动正则化使用一个迭代优化，来清晰的约束局部形变在有关节结构上，导致减少解决空间和物理可信形变。这个L0策略是融合到可用的非刚体运行跟踪流程中，逐渐提取关...

2019-08-25 11:05:39 460

原创图像三维重建专题第四期-使用级联CNNs对深度图去噪和精炼DDRNet

论文链接摘要消费级传感器越来越受到欢迎和在我们的日常生活被它最近的融合在最新的IphoneX。然而，他们仍然受困于噪声而限制他们的应用。虽然大部分的处理已经被做来减少噪声和boost矩阵细节，由于先天固有因素和实时的需求，这个问题仍然没有被很好解决。我们提出了一个级联深度去噪和精炼网络（DDRNet）来处理这个问题，通过利用多帧融合几何和完成高质量颜色图像通过一个加入训练策...

2019-08-24 10:32:13 680

原创图像三维重建第三期-HybridFusion: Real-Time Performance Capture Using a Single Depth Sensor and Sparse IMUs

论文链接摘要我们提出一个轻量权重具有较高的稳定性对实时的人体行为捕获基于一个单深度图像和稀疏的惯导测量单元（IMUs）。我们的方法结合非刚体表面跟踪和立体融合来同时的重建挑战运动，细致的几何和内部人体对衣服主题。提出的混合运动跟踪方法和有效的每帧传感器标定技术能够对非刚体表面重建快速移动和严重情况的姿态挑战。重要的融合人工被减少使用一个新的可信的测量对我们适应基于TSDF的融...

2019-08-23 11:13:54 645

原创图像三维重建专题第三期-单张图中得到3D手、脸、身体-Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

论文链接摘要为利用及分析人体动作、交互、情绪，我们计算一个3D模型人体姿态、手势姿态、面目表情从一个单张图像。为完成这个，我们使用上千张3D扫描去训练一个新的，统一的，3D模型人体，SMPL-X，延伸SMPL使用手全部关节和一个面部表达。学习去回归参数SMPL-X直接的从图像是具有挑战的没有配对的图像和3D真值。最终，我们根据SMPLify方法，评估2D特征以及优化模型参数...

2019-08-22 22:25:40 2296

原创图像三维重建专题第二期-Doublefusion

论文链接摘要我们提出DoubleFusion，一个新的实时系统，其中结合立体动态重建使用数据驱动模板同时重建细致的几何，非刚性运动和内部人体形状从一个深度相机中。一个关键的贡献这个方法是双层的展示组成一个完整参数人体形状内部和一个外表面逐渐融合的外表面层。一个提前定义的节点图在身体表面参数的非刚体形变靠近身体，以及一个自由形式动态改变图实时重建结果...

2019-08-21 21:01:47 608

原创图像三维重建专题第二期-DynamicFusion详讲

论文链接摘要

2019-08-20 22:13:17 878

转载图像三维重建专题第一期-KinectFusion详讲

KinectFusion: Real-time 3D reconstruction and interaction using a moving depth cameraKinectFusion: Real-Time Dense Surface Mapping and Tracking效果图摘要我们展现了系统对高精度实时地图复杂和任意室内场景在变化光照条件，使用仅仅一...

2019-08-19 16:12:59 862 1

转载图像三维重建专题第一期-综述

三维重建（3D Reconstruction）技术一直是计算机图形学和计算机视觉领域的一个热点课题。早期的三维重建技术通常以二维图像作为输入，重建出场景中的三维模型。但是，受限于输入的数据，重建出的三维模型通常不够完整，而且真实感较低。随着各种面向普通消费者的深度相机（depth camera）的出现，基于深度相机的三维扫描和重建技术得到了飞速发展。以微软的Kinect，华硕的XT...

2019-08-19 15:08:40 2274

原创图像三维重建专题第一期-Texture Mapping for 3D Reconstruction with RGB-D Sensor

论文链接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Fu_Texture_Mapping_for_CVPR_2018_paper.pdf摘要

2019-08-19 12:08:00 1258

原创 A Direct 3D Object Tracking Method Based on Dynamic Textured Model Rendering and Extended Dense Feat

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7990259摘要我们提出一个新颖的方法对强健的6-DOF位姿跟踪固定目标从单目图像上。在我们的方法中，3D目标跟踪被完成通过直接的对齐视频帧来动态模板呈现从一个纹理3D目标模型。不像先前的方法，常常统一一个数量的分离模板来对齐视频帧，我们使用一个在线的纹理模型，提供去创建动...

2019-08-19 10:32:11 242

原创全景视频预测头部移动-Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach

链接地址：https://arxiv.org/pdf/1710.10755v4.pdf项目地址：https://github.com/YuhangSong/DHP摘要全景视频提供沉浸式虚拟现实和交互的体验通过让人去控制观察区域（FOV）通过头部移动（HM）。HM扮演了一个关键的角色在模型人注意在全景视频上。这篇文章建立了一个数据库收集目标的头部信息在全景视频序列中。从这...

2019-08-18 11:47:00 674 1

转载 VAE(Variational Autoencoder)的原理

Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).论文的理论推导见：https://zhuanlan.zhihu.com/p/25401928中文翻译为：变分自动编码器转自：http://k...

2019-08-17 22:31:53 553

转载 GAN网络调参经验

2019-08-17 21:42:24 8476 3

原创视频语言调查-VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

论文地址：https://arxiv.org/pdf/1904.03493.pdf摘要我们展示了一个新的大尺度多语言视频描述数据集。VATEX包含41250个视频和82，500描述使用英文和中文。在所有描述中，有超过206，000英文-中文平行转换对。对比广泛使用MSR-VTT数据集，VATEX是多语言的，较大，语言复杂的，种类繁多对于视频和自然语言描述上。我们也介绍两个任务对视频和语言研...

2019-08-17 20:51:01 1407

转载简单理解与实验生成对抗网络GAN

之前GAN网络是近两年深度学习领域的新秀，火的不行，本文旨在浅显理解传统GAN，分享学习心得。现有GAN网络大多数代码实现使用python、torch等语言，这里，后面用matlab搭建一个简单的GAN网络，便于理解GAN原理。GAN的鼻祖之作是2014年NIPS一篇文章：Generative Adversarial Net,可以细细品味。分享一个目前各类GAN的一个论文整理集合再分享...

2019-08-16 21:40:21 268

原创 3D人体重建从单张图中-DeepHuman: 3D Human Reconstruction from a Single Image

论文链接：http://www.liuyebin.com/deephuman/assets/DeepHuman.pdf摘要我们提出深度人体，一个图像导向立体到立体的转换CNN对3D人体重建从一个单张RGB图像。为减少干扰涉及在表面几何重建，即使对不可见的区域也可以进行重建，我们提出和利用一个稠密的语义展示形成从SMPL模型作为一个外部的输入。一个关键特征在我们的网络融合不同...

2019-08-16 11:41:56 5094

原创自适应航拍多车地面速度估计-An Adaptive Framework for Multi-Vehicle Ground Speed Estimation in Airborne Videos

论文地址：https://www.mdpi.com/2072-4292/11/10/1241摘要随着快速发展在无人机领域，基于无人机的智能空中监控系统被展示通过实时地面车辆速度估计已经吸引广泛的注意来自研究者们。然而，仍然存在一些挑战在提取速度信息从航拍视频中，包括动态移动背景，小目标大小，复杂的环境，各种场景。在这篇文章中，我们提出了一个新颖适应框架对多车地面速度估计在航...

2019-08-15 15:18:32 481

原创生成VR生活视频-Generating VR Live Videos with Tripod Panoramic Rig

论文地址：http://cgcad.thss.tsinghua.edu.cn/xufeng/2018_Generating%20VR%20Live%20Videos%20with%20Tripod%20Panoramic%20Rig.pdf摘要最近突破在消费水平的虚拟现实VR设备带来了一个增加需求对VR生活内容。将真实生活内容带进VR需要复杂的计算，当前技术不能融合360度...

2019-08-15 09:36:19 1214

原创稠密姿态迁移-Dense Pose Transfer

链接地址：http://openaccess.thecvf.com/content_ECCV_2018/papers/Natalia_Neverova_Two_Stream__ECCV_2018_paper.pdf摘要在这个工作中，我们融入建议来自基于表面模型使用神经统一：我们提出一个结合基于表面姿态评估和深度生成模型，允许我们去实现高精度的姿态转换，例如，统一一张新图的一...

2019-08-14 11:03:36 836

原创行人属性识别 Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning ∗

论文地址：http://ise.thss.tsinghua.edu.cn/MIG/2018-7.pdf摘要行人属性识别是一个预测属性标签的行人从表面图像，这是一个非常具有挑战的任务对于计算机视觉由于差的图像质量和小的训练数据集。它是观察语义行人属性来识别趋向展示语义或空间相关性。属性可以分组使用相关，对比先前工作忽略这个现象。尽管通过循环神经网络（RNN）的极高能力在学习内...

2019-08-13 09:22:44 1065 2

原创 GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition

论文地址：http://ise.thss.tsinghua.edu.cn/MIG/2019-2.pdf摘要这个领域方法对命名实体识别（N-ER）较多适用复杂循环神经网络（RNN），例如长短句存储（LSTM）。然而，RNNs受到限制被他们的循环自然相对于计算有效性。相对的，卷积神经网络（CNN）可以全部开发GPU并行用它们的反馈框架。然而，较少的注意在NER使用CNNs，主要...

2019-08-12 09:27:09 1198

原创 PVNet: A Joint Convolutional Network of Point Cloud and Multi-View for 3D Shape Recognition

论文链接：http://gaoyue.org/paper/PVNet.pdf摘要 3D目标识别已经吸引研究者们的注意在领域多媒体和计算机视觉。随着最近涌入的深度学习，各种深度模型使用不同的展示形式实现先进的表现。大部分它们，点云和多视点基于3D模型展示正在引进在最近，它们对应的深度模型已经展示出重要性在3D模型识别。然而，有较少集中在点云数据和多视点数据对于3D模型展示，在我们...

2019-08-11 20:22:12 1230

原创 Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering

论文地址：https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16446/15741摘要

2019-08-10 09:03:24 355

原创人为回环SLAM-Human-in-the-Loop SLAM

论文地址：https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17422/15847工程地址：https://github.com/umass-amrl/hitl-slam摘要建立大尺度，全局一致图是一个具有挑战的问题，做较多困难在环境使用有限的方式，稀疏特征，或者当使用数据收集统计通过新手用户。对于这样的场...

2019-08-09 21:40:42 3010

原创 Video-Based Sign Language Recognition without Temporal Segmentation

论文地址：https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17137/15938摘要

2019-08-09 21:23:48 665

原创 Real-Time Simultaneous Localisation and Mapping with a Single Camera

论文地址：http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=1896DD2C3D3E3A239313F53BEBE8DDD2?doi=10.1.1.125.2314&rep=rep1&type=pdf实验室主页：http://www.robots.ox.ac.uk/摘要相机几何图像特征...

2019-08-03 09:31:19 577

原创视觉测距-Visual Odometry

论文地址：https://www.rose-hulman.edu/class/se/csse461/handouts/Day37/nister_d_146.pdf摘要我们展示了一个系统可以评估运动的一个立体头或者一个移动相机基于视频输入。这个系统运行在实时低时延以及运动评估使用航行目的。前端系统是一个特征跟踪器。点特征被匹配在邻近的帧中和连接进入图像跟踪在视频帧率。粗评估相...

2019-08-03 09:29:51 2067

转载 Visual SLAM梳理

最近在学习视觉slam，这里作为阅读笔记记录和总结一下。这里关注的主要是基于视觉的Visual SLAM或Visual Odometry，也包括一部分图像和IMU融合的Visual-Inertial Odometry相关算法。注：下文中部分链接指向Google Scholar及Youtube，有些用户可能无法访问。一、概述Simultaneous Localization and ...

2019-08-03 09:18:34 1593

原创深盲视频去噪-ViDeNN: Deep Blind Video Denoising

论文地址：https://arxiv.org/pdf/1904.10898.pdf项目地址：https://github.com/clausmichele/ViDeNN作者主页：http://jvgemert.github.io/摘要我们提出ViDeNN：一个CNN对视频去噪不适用先验知识在噪声分布（盲去噪）。这个CNN框架使用一个结合空间和时间的滤波，学习去空间去噪...

2019-08-02 10:29:35 4199 4

原创红外相机检测甲烷气体排放-Machine Vision for Natural Gas Methane Emissions Detection Using an Infrared Camera

论文地址：https://arxiv.org/pdf/1904.08500.pdf摘要在一个气候限制的世界中，它是非常重要的去减少天然气甲烷排放，能够潜在的抵消气候受益在替代煤使用气。视觉气体图像（OGI）广泛使用的方法去检测甲烷泄漏，但是劳动密集型和不能提供泄漏检测结果在没有技术的判断。在这篇文章中，我们发展了一个计算视觉方法来对基于OGI泄漏检测，使用卷积神经网络，训练甲烷泄漏图像去能...

2019-08-01 08:39:51 1055

原创 Road Crack Detection Using Deep Convolutional Neural Network and Adaptive Thresholding

论文地址：https://arxiv.org/pdf/1904.08582.pdf项目地址：https://github.com/ruirangerfan/road_crack_detection_net数据集：http://dx.doi.org/10.17632/5y9wdsg2zt.1摘要

2019-08-01 08:37:07 1491

原创图像缩放通过重建从深度特征中-Image Resizing by Reconstruction from Deep Features

论文地址：https://arxiv.org/pdf/1904.08475.pdf摘要传统图像缩放方法通常工作在像素空间和使用各种显著性测量。这个挑战是调整图像形状，对比尽力去保留重要内容。在这篇文章中，我们展示图像缩放在特征空间，深度层的神经网络包含丰富的重要分割信息。我们直接调整图像特征图，提取从一个预训练分类网络基于优化。这个新颖的方法利用分层编码的网络，尤其高层区分...

2019-08-01 08:33:45 516

原创 Combating the Elsagate Phenomenon: Deep Learning Architectures for Disturbing Cartoons

论文地址：https://arxiv.org/pdf/1904.08910.pdf项目地址：https://github.com/akariueda/DLAforElsagate摘要

2019-08-01 08:31:42 243

CSS360的博客