自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 Template-free Articulated Neural Point Clouds forReposable View Synthesis

具体来说,TiNeuVox骨干网络使用作者的实现和一个额外的失真损失进行预训练,神经点云使用Adam优化器训练160k(Blender和Robots)或320k(ZJU-MoCap)迭代,批量大小为8192射线。:每个点的初始蒙皮权重向量w^iw^i​通过距离到每条骨骼线的指数衰减函数初始化,并通过全局可学习参数α进行缩放和应用softmax函数得到最终的混合蒙皮权重向量wiwi​。这篇论文提出了一种基于点云和线性混合蒙皮(LBS)的前向变形方法,用于解决动态对象的NeRF学习和重定位问题。

2024-11-10 17:59:00 716

原创 GHuNeRF: Generalizable Human NeRF from a Monocular Video

由于SMPL顶点的稀疏性和体积分辨率的限制,基于SMPL顶点的特征体积只能表示人体的整体几何形状,但精度不足。具体来说,对于目标SMPL上的每个顶点vgvg​,其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi​)得到的,其中bibi​表示顶点vivi​的可见性。其中,vgvg​ 表示目标SMPL上的一个顶点,{v1,v2,...,vT}{v1​,v2​,...,vT​} 表示观测帧中对应的SMPL顶点,bibi​ 表示顶点vivi​的可见性。:使用体积渲染技术为每个像素渲染RGB值。

2024-11-03 17:45:57 1012

原创 Template-free Articulated Neural Point Clouds for Reposable View Synthesis

与传统的三角网格模型相比,神经点云更适合处理高度动态、复杂形变的物体(如人体),同时点云的稀疏性使得它在存储和计算上具有更好的效率。神经网络不仅输出点云的空间位置,还能学习每个点的特征,这些特征结合空间坐标构成了完整的点云表示,后续用于渲染和合成。这意味着即使在大幅度的姿态变化下,人物的几何形状、姿态和外观依旧保持一致,同时保留了重要的细节信息,如面部和衣物的细节。使用多层特征表示,确保在动态姿态变化过程中,保留原始点云中的细节特征,最终在新视角的合成中保留这些细节,生成高保真的渲染结果。

2024-10-27 19:51:15 528

原创 学习动态人类在几分钟内的神经体素表示

学习动态人类在几分钟内的神经体素表示陈耕* 彭思达* 洪振 Xu∗{\mathrm{{Xu}}}^{ * }Xu∗ 鲍军 周晓卫浙江大学 CAD&CG 国家重点实验室图 1. 训练的收敛速度。给定一个表演者的单目视频,我们的模型可以在 ∼\sim∼ 5 分钟内学会生成逼真的新视角渲染,这比神经体 [58] 快 100 倍。摘要本文解决了从稀疏多视角视频快速重建动态人类自由视角视频的挑战。一些最近的工作将动态人类表示为一个标准神经辐射场(NeRF)和一个运动场,这些是通过可微分渲染从视频中

2024-10-13 16:19:17 991

原创 1111111

1。

2024-10-10 18:12:44 179

原创 HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 精读

常见的方法是通过人体姿态估计器(如 OpenPose 或 SMPL 模型)提取人物的骨架信息,获取 3D 关节的位置信息。这样,在每一帧中,人体表面的点会根据骨架的运动进行相应的变换。通过对规范姿态、骨架运动、非刚性运动的结合,HumanNeRF 可以在输入单目视频的基础上,渲染出从不同视角观察到的动态人物。:HumanNeRF 通过帧间一致性优化,使得模型在进行自由视角渲染时,不仅要在单帧内生成高质量的结果,还要保证相邻帧之间的渲染具有连贯性。:在 HumanNeRF 中,人物的几何形态被标准化为。

2024-09-22 18:36:28 1304

原创 Radiance Field Learners As UAV First-Person Viewers 精读

1. 多尺度相机空间估计模块:关键帧选择器:自动选择最具代表性的帧进行渲染,减少计算量,提高渲染效率。 无人机轨迹预测:通过历史轨迹预测无人机的未来位置,确保实时视角调整,提高无人机导航的准确性。 块细分为不同的翘轴:将场景分割为不同的空间块,根据不同视角优化渲染,提升场景表现细节。2. 全局-局部场景编码器模块:跨分辨率注意力:融合不同分辨率的场景特征,确保全局和局部信息的有效结合,提升场景理解的精度。 点位分组:通过对三维点进行分组,细化局部特征提取,提升渲染效果。 体积特征:将场景表

2024-09-13 21:49:36 274

原创 MonoHuman: Animatable Human Neural Field from Monocular Video 精读

共享双向变形模块在《MonoHuman》系统中的作用是核心的,它通过双向的姿态变形确保人体模型能够在标准姿态和目标姿态之间进行自然的过渡。这一模块的设计大大提升了姿态重建的准确性,同时通过共享参数的方式简化了学习过程,使得网络能够更高效地生成自然且一致的3D人体模型。正向通信搜索模块在《MonoHuman》系统中的作用是从输入的单目视频中高效地提取人体姿态和几何特征信息,并将这些信息传递给后续的双向变形模块和渲染模块。

2024-09-08 10:24:58 1132

原创 来自单目视频的可动画人类神经场

渲染具有显式姿态控制的数字化身的自由视点照片逼真视图合成是一项重要任务,将为AR/VR应用,虚拟试穿,电影制作,远程呈现等带来好处。然而,以前的方法[34,35,60]通常需要仔细收集具有复杂系统和受控工作室的多视图视频,这限制了在一般和个性化场景应用中的使用。因此,尽管具有挑战性,但从单目视频中直接恢复和动画化数字化身具有重要的应用价值。以前的渲染方法[35]可以合成逼真的人体新视图图像,但很难以看不见的姿势动画化身。

2024-09-07 19:54:39 1451 2

原创 HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

给定人类执行活动的单个视频,例如,一个舞蹈演员的YouTube或TikTok视频,我们希望能够在任何帧暂停,并围绕表演者旋转360度,以便在那个时刻从任何角度观看他们(图1)。这个问题-移动主体的自由视点渲染-是一个长期的研究挑战,因为它涉及合成以前看不见的相机视图,同时考虑布料褶皱,头发运动和复杂的身体姿势[5,6,15,18,27,38,59,65]。这个问题是特别困难的情况下,“在野外”的视频用一个单一的摄像头(单目视频),我们在本文中地址的情况下。

2024-09-07 18:49:09 1354

原创 Radiance Field Learners As UAV First-Person Viewers 精读

2024-09-01 20:56:30 153

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 精读

传统视图合成和NeRF的共同目标都是从已有的视角图像中生成新的视角图像。两者都利用已有的多视角图像数据来预测或合成从未见过的视角。

2024-08-25 17:39:35 695

原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 翻译

在这项工作中,我们解决了长期存在的问题,视图合成的一种新的方式,直接优化参数的连续5D场景表示,以尽量减少渲染一组捕获的图像的错误。我们将静态场景表示为连续的5D函数,其输出在空间中的每个点(x,y,z)处在每个方向(θ,φ)上发射的辐射,以及每个点处的密度,其作用类似于控制通过(x,y,z)的射线累积多少辐射的微分不透明度。我们的方法优化了一个没有任何卷积层的深度全连接神经网络(通常称为多层感知器或MLP),通过从单个5D坐标(x,y,z,θ,φ)回归到单个体积密度和视图相关的RGB颜色来表示该函数。

2024-08-24 11:59:56 1132

原创 Radiance Field Learners As UAV First-Person Viewers 翻译

通过对不同分辨率之间的交叉注意力的精心设计和体积特征的获取,每个点的特征的训练都考虑了周围点的上下文,降低了忽略低上下文元素的风险。在基于体素的架构下,FPV-NeRF在以前常用的NeRF数据集上的性能也优于SOTA方法,即,NeRF-360-V2数据集的峰值信噪比为0.03-3.07,LLFF数据集的峰值信噪比为0.01-1.65。因此,当应用于从复杂的无人机轨迹生成新颖的第一人称视角时,例如从外部到内部的缩放(图1),NeRF的质量会下降,突出了其在处理不同场景和视角方面的局限性。

2024-08-21 20:49:30 1108

原创 2024.6.23 机器学习周报

本文主要讨论PINN。本文简要介绍了监督学习。其次本文展示了题为Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations的论文主要内容。该论文提出了一个深度学习框架,使数学模型和数据能够协同结合。

2024-06-22 14:03:12 1956 1

原创 2024.6.16 机器学习周报

通过本周阅读文献和代码的结合,初步对该文献有了一定的了解,接下来会对其深入理解。%5Csubset。

2024-06-16 15:25:46 982 1

原创 2024.6.2 机器学习周报

本文主要讨论了生成式对抗神经网络。首先,本文介绍了生成式对抗网络的设计思路。在此基础下,本文阐述了GAN的网络结构以及训练过程。生成器与解释器相互迭代,随着更新,生成器的效果趋近于真实图片。其次,本文展示了题为Generative Adversarial Networks论文的主要内容。这篇论文提出了生成式对抗网络的网络结构以及训练过程,该模型填补了生成任务方面神经网络的空白。此外,这篇论文还从理论角度证明了生成器的数据分布能够达到全局最优以及训练算法的可收敛性。

2024-05-31 19:05:16 836

原创 2024.6.9 机器学习周报

有趣的是,我们发现,将预测的热图解码为原始图像空间中的最终关节坐标的过程对于人类姿势估计性能具有惊人的重要性,然而这在以前并没有被认识到。大量的实验表明,DARK在两个常见的基准测试MPII和COCO上产生了最好的结果,始终验证了我们新的坐标表示思想的有用性和有效性。假设热图与原始图像具有相同的空间大小,只需要找到最大激活的位置作为联合坐标预测,这是直接和简单的。尽管被认为是模型测试流水线的一个无关紧要的组成部分,但正如本研究中发现的那样,坐标解码是图像中人类姿势估计的最重要的性能贡献者之一(见下表)。

2024-05-24 14:53:47 567

原创 2024.5.26 机器学习周报

通过本周阅读文献和代码的结合,初步对该文献有了一定的了解,接下来会对其深入理解,并且对代码的复现。

2024-05-24 14:53:44 851

原创 2024.5.19 机器学习周报

X-HRNET: TOWARDS LIGHTWEIGHT HUMAN POSE ESTIMATION WITH SPATIALLY UNIDIMENSIONAL SELF-ATTENTION高分辨率表示是人体姿态估计实现高性能所必需的,随之而来的问题是高计算复杂度。特别地,主要的姿态估计方法通过2D单峰热图来估计人体关节。每个2D热图可以水平和垂直地投影到一对1D热图向量并由一对1D热图向量重建。受这一观察的启发,我们引入了一个轻量级和强大的替代方案,空间一维自注意(SUSA),逐点(1× 1)卷积是dep

2024-05-13 11:37:48 1108

原创 2024.5.12 机器学习周报

Deep High-Resolution Representation Learning for Human Pose Estimation在本文中,我们感兴趣的是人类姿态估计问题,重点是学习可靠的高分辨率表示。大多数现有的方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率表示。我们从一个高分辨率的子网络开始作为第一阶段,逐步增加高分辨率到低分辨率的子网络,形成更多的阶段,并将多分辨率的子网络并行连接。我们进行重复的多尺度融合,使得每个从高到低的分辨率

2024-05-08 18:14:50 1023 1

原创 2024.5.5 机器学习周报

我们引入了一个灵活的上下文聚合机制的基础上的注意力,使SuperGlue的理由有关的基础3D场景和功能分配联合。与传统的手工设计的几何学相比,我们的技术通过图像对的端到端训练来学习几何变换和3D世界的先验知识。当被要求匹配一个给定的模糊关键点时,人类会来回查看两张图像:他们筛选试探性匹配的关键点,检查每个关键点,并寻找上下文线索,以帮助从其他自相似性中消除真正的匹配。由此产生的多路复用图神经网络从每个节点的高维状态开始,并通过同时聚合所有节点的所有给定边的消息来在每一层计算更新的表示。

2024-05-01 23:09:11 1253 3

原创 2024.4.28 机器学习周报

上图展示了整个流程,输入是w×h的彩色图片 (a),输出是二维的带有每个人的人体关键点位置的图像。首先是一个前馈网络,它同时预测出关于身体部分位置的二维置信图S (b)和一组关于部分亲和度的2D向量场L (c),其中二维向量域的集合 L 编码了部分的关联的程度。本文的网络结构如上图所示,整个网络是两个分支,多stage的卷积神经网络。是一个binary mask, 当位置p的annotation缺失的时候 W(p) = 0 ,否则就为 1,所以未标记的人物关节点不会影响模型的学习过程。

2024-04-23 16:12:53 1079

原创 2024.4.21 机器学习周报

通过本周阅读文献和代码的结合,初步对该文献有了一定的了解,接下来会对其深入理解,并且对代码的复现。

2024-04-20 13:08:47 1302

原创 2024.4.14 机器学习周报

#权重下载网址self.avgpool = nn.AdaptiveAvgPool2d((7, 7))#AdaptiveAvgPool2d使处于不同大小的图片也能进行分类nn.Dropout(p=dropout),#完成4096的全连接nn.Linear(4096, num_classes),#对num_classes的分类x = torch.flatten(x, 1)#对输入层进行平铺,转化为一维数据return x。

2024-04-14 14:53:09 1027

原创 2023.4.7 机器学习周报

本周在阅读论文的同时,还对SAM分割模型进行了进行了学习,之后会在此基础上深入学习和对代码的复现。

2024-04-02 19:01:28 978 2

原创 2024.3.31 机器学习周报

Naive Lite-HRNet的shuffle block存在的大量的 1×1 卷积操作成为了计算瓶颈,因此,如何能替换掉成本较高的 1×1 Conv并且保持甚至取得超越其性能是本文要解决的核心问题。的矩阵,表示weight map,会从不同分辨率的feature map中计算得到,可以起到一个跨通道、跨分辨率的特征交互的作用权重矩阵,它由Cross-resolution Weight Computation和Spatial Weight Computation这两种方法进行计算。⊙表示元素乘法操作。

2024-03-29 17:01:54 884

原创 2024.3.24 机器学习周报

是NLP中很广法的模型,由Transformer应用到CV领域,该模型的主要作用就是捕获长序列中向量之间的相关性,输入是一个长的序列,输出是包含了向量相关的相关性。由下图示例,输入是一个长的句子,输出得到了每一个词的词向量信息。​本周对self-attention进行了更深入的学习,并且结合代码和理论有了进一步的了解。

2024-03-22 16:41:23 1714 1

原创 2024.3.17 机器学习周报

R-TRANSFORMER: RECURRENT NEURAL NETWORK ENHANCED TRANSFORMER递归神经网络长期以来一直是序列建模的主要选择。然而,它严重遭受两个问题:在捕获非常长期的依赖性和无法并行化的顺序计算过程中无能为力。因此,最近提出了许多基于卷积和注意力操作的非递归序列模型。值得注意的是,具有多头注意力的模型(如Transformer)在捕获各种序列建模任务中的长期依赖关系方面表现出了极大的有效性。尽管他们的成功,但是,这些模型缺乏必要的组件来模拟局部结构的序列,并严重依赖

2024-03-16 21:23:48 1903

原创 2024.3.10 机器学习周报

本周我阅读了关于经典网络Resnet的文献,了解了残差学习框架可以简化网络的训练,并且对Resnet代码的实现,对神经网络的结构有了进一步的认识。

2024-03-10 12:03:34 958

原创 2024.3.03 机器学习周报

Efficient Segment-Anything Model for Automatic Mask Region Extraction in Livestock Monitoring本文提出了一种有效的分割模型,用于牲畜跟踪中掩模区域的自动提取。研究的重点是开发和评估用于跟踪黑牛的自动掩模分割模型。主要贡献是一个量身定制的提取分割模型,用于自动提取牛面具区域,利用牲畜跟踪。该方法利用Segment Anything Model(SAM)、Grounded SAM、Grounding Dino、YOLOv

2024-02-04 12:38:39 981

原创 2024.1.28 机器学习周报

U-Net: Convolutional Networks for Biomedical Image Segmentation人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,它依赖于强大的使用数据扩充来使用可用的注释样本更多有效地。体系结构由一条收缩路径组成上下文和实现精确定位的对称扩展路径。我们展示了这样一个网络可以从较少的图像,并且优于先前的最佳方法(滑动窗口卷积网络)在电子显微镜堆栈中的神经元结构分割的ISBI挑战上。使用在透射光显微镜图像上训练的相

2024-01-25 21:00:43 827

原创 2024.1.21 机器学习周报

#权重下载网址self.avgpool = nn.AdaptiveAvgPool2d((7, 7))#AdaptiveAvgPool2d使处于不同大小的图片也能进行分类nn.Dropout(p=dropout),#完成4096的全连接nn.Linear(4096, num_classes),#对num_classes的分类x = torch.flatten(x, 1)#对输入层进行平铺,转化为一维数据return x。

2024-01-18 19:45:30 981

原创 2024.1.14 机器学习周报

可以看出Dense Block互相连接所有的层,具体来说就是每一层的输入都来自于它前面所有层的特征图,每一层的输出均会直接连接到它后面所有层的输入。最近的工作表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接,那么卷积网络可以进行更深入、更准确和高效的训练。其它层的卷积核数量根据 k 的大小而定。这么做的原因是:卷积层的输入包含了它前面所有层的输出特征,它们来自不同层的输出,因此数值分布差异比较大,所以它们在输入到下一个卷积层时,必须先经过BN层将其数值进行标准化,然后再进行卷积操作。

2024-01-10 21:43:17 1056

原创 2024.1.07 机器学习周报

本周我阅读了关于经典网络Resnet的文献,了解了残差学习框架可以简化网络的训练,对神经网络的结构有了进一步的认识。

2024-01-07 18:00:38 1072 1

原创 2023.12.31 机器学习周报

Very Deep Convolutional Networks for Large-Scale Image Recognition,它是由牛津大学计算机视觉组和谷歌一起研究出来的深度卷积神经网络。通常人们所说的VGG是指VGG-16,它由13层卷积层和3层全连接层组成,它有着规律的设计、简洁可堆叠的卷积块,并且在其他数据集上有着很好的表现,因此被人们广泛使用。在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。

2023-12-29 20:24:28 997 2

原创 2023.12.24 机器学习周报

Going deeper with convolutions我们提出了一种代号为Inception的深度卷积神经网络架构,该架构负责在ImageNet大规模视觉识别挑战2014(ILSVRC14)中为分类和检测设定新的技术水平。这种体系结构的主要标志是提高了网络内部计算资源的利用率。这是通过精心设计实现的,该设计允许增加网络的深度和宽度,同时保持计算预算不变。为了优化质量,建筑决策基于Hebbian原理和多尺度处理的直觉。我们提交的ILSVRC14中使用的一个特定化身称为GoogLeNet,这是一个22层的

2023-12-23 14:28:57 116 1

原创 2023.12.17 机器学习周报

本周复习了RNN的相关知识,加深了印象,之后会在该基础上进行更深入的学习。

2023-12-15 17:07:03 140

原创 2023.12.10 机器学习周报

Transformer-Based Learned Optimization在本文中,我们提出了一种学习优化的新方法。正如文献中常见的那样,我们用神经网络表示优化器更新步骤的计算。然后在一组训练优化任务上学习优化器的参数,以便有效地执行最小化。我们的主要创新是为受经典 BFGS 算法启发的学习优化器提出了一种新的神经网络架构。与 BFGS 一样,我们将预处理矩阵估计为秩一更新的总和,但使用基于 transformer 的神经网络结合步长和方向来预测这些更新。与最近学习的几种优化方法相比,我们的公式允许跨目标

2023-12-09 22:14:30 76

原创 2023.12.03 机器学习周报

Delving into Transformer for Incremental Semantic Segmentation增量语义分割(ISS)是一项新兴任务,通过增量添加新类来更新旧模型。目前,基于卷积神经网络的方法在ISS中占主导地位。然而,研究表明,这种方法很难在学习新任务的同时保持对旧任务的良好表现(灾难性遗忘)。相比之下,基于Transformer的方法在抑制灾难性遗忘方面具有天然的优势,因为它能够对长期和短期任务进行建模。在这项工作中,我们探索了基于Transformer的架构更适合ISS的原

2023-12-02 14:46:38 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除