计算机视觉/情感分析/多模态
文章平均质量分 94
远哥挺乐
开开心心,健健康康,快快乐乐
展开
-
关于生成式人工智能模型应用的调研
生成式人工智能(Generative AI)近年来经历了显著的增长,导致在各种领域出现了广泛的应用。在本文中,我们提供了对350多个生成式人工智能应用的综合调查,提供了结构化的分类法和对各种单模和多模生成式人工智能的简明描述。这项调查分为各个部分,涵盖了各种单模生成式人工智能应用,如文本、图像、视频、游戏和脑信息等。我们的调查旨在为研究人员和从业者提供宝贵的资源,以帮助他们在迅速扩展的生成式人工智能领域中导航,促进对当前最先进技术的更好理解,推动领域的进一步创新。原创 2023-10-27 23:43:06 · 1132 阅读 · 0 评论 -
【计算机视觉|人脸建模】学习从图像中回归3D面部形状和表情而无需3D监督
从单张图像估计3D面部形状必须对光照、头部姿势、表情、面部毛发、化妆和遮挡等变化具有鲁棒性。鲁棒性要求具备大规模的野外图像训练集,而这些图像在构建时缺乏真实的3D形状信息。为了在没有任何2D到3D监督的情况下训练网络,我们提出了RingNet,它能够从单张图像中学习计算3D面部形状。我们的关键观察是,一个人的面部形状在不同图像中是恒定的,不受表情、姿势、光照等影响。RingNet利用一个人的多张图像和自动检测的2D面部特征。它使用一种新颖的损失函数,鼓励当身份相同时,面部形状相似,而对于不同的人则不同。原创 2023-10-07 16:25:47 · 1931 阅读 · 0 评论 -
【计算机视觉|人脸建模】学习从4D扫描中获取的面部形状和表情的模型
本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处图1.。顶部:D3DFACS数据集的样本。中部:仅模型注册。底部:仅使用模型进行表情转移到Beeler等人[2011]的主题。3D面部建模领域存在着高端和低端方法之间的巨大差距。在高端,最佳的面部动画与真实人类无法区分,但这需要大量手工劳动。在低端,来自消费者深度传感器的面部捕捉依赖于不足以捕捉自然面部形状和表情变化的3D面部模型。我们寻求通过从数千个准确对齐的3D扫描中学习面部模型来找到一个中间地带。原创 2023-10-05 15:34:49 · 1898 阅读 · 0 评论 -
【计算机视觉|人脸建模】PanoHead:360度几何感知的3D全头合成
最近,在计算机视觉和计算机图形领域,对3D人头的合成和重建引起了越来越多的关注。现有的最先进的3D生成对抗网络(GANs)用于3D人头合成的模型要么仅限于近前视图,要么难以在大视角下保持3D一致性。我们提出了PanoHead,这是第一个3D感知的生成模型,通过仅使用野外非结构化图像进行训练,能够以360度高质量、一致的视图合成全头图像,具有多样的外观和详细的几何结构。在其核心,我们提升了最近3D GANs的表示能力,并在从野外图像中训练时弥合数据对齐差距,这些图像具有广泛分布的视角。原创 2023-09-28 10:38:16 · 2353 阅读 · 0 评论 -
【计算机视觉|生成对抗】用于高保真自然图像合成的大规模GAN训练用于高保真自然图像合成的大规模GAN训练(BigGAN)
尽管在生成图像建模方面取得了近期的进展,但成功地从诸如ImageNet之类的复杂数据集中生成高分辨率且多样化的样本仍然是一个难以捉摸的目标。为了实现这一目标,我们尝试以迄今为止最大的规模训练生成对抗网络,并研究了与这种规模特定的不稳定性。我们发现,向生成器应用正交正则化使其适应一个简单的“截断技巧”,通过减少生成器输入的方差,从而在样本保真度和多样性之间实现精细的控制。我们的修改导致了在类条件图像合成方面刷新了最新技术水平的模型。原创 2023-08-24 17:35:45 · 1046 阅读 · 1 评论 -
【计算机视觉|生成对抗】StackGAN:使用堆叠生成对抗网络进行文本到照片逼真图像合成
从文本描述合成高质量图像是计算机视觉中的一个具有挑战性的问题,具有许多实际应用。现有的文本到图像方法生成的样本大致能够反映出给定描述的意思,但它们缺乏必要的细节和生动的物体部分。在本文中,我们提出了堆叠生成对抗网络(StackGAN)来生成基于文本描述的 256×256 照片逼真图像。我们通过一个素描精化过程将这个难题分解为更易管理的子问题。第一阶段生成对抗网络(Stage-I GAN)根据给定的文本描述勾勒出物体的原始形状和颜色,生成第一阶段的低分辨率图像。原创 2023-08-19 17:33:01 · 1297 阅读 · 0 评论 -
【计算机视觉|生成对抗】逐步增长的生成对抗网络(GAN)以提升质量、稳定性和变化
我们描述了一种新的生成对抗网络(GANs)训练方法。关键思想是逐步地使生成器和判别器增长:从低分辨率开始,随着训练的进行,我们添加新的层(layer),这些层模拟了越来越精细的细节。这不仅加速了训练过程,还极大地稳定了训练过程,使我们能够生成前所未有质量的图像,例如102421024^210242分辨率的CELEBA图像。我们还提出了一种简单的方法来增加生成图像的变化,并在无监督的CIFAR10数据集中实现了创纪录的8.808.808.80的Inception分数。原创 2023-08-18 17:28:08 · 1709 阅读 · 0 评论 -
【计算机视觉|生成对抗】非配对图像到图像的翻译:使用循环一致对抗网络(CycleGAN)
图像到图像的转换是一类涉及视觉和图形问题的任务,其目标是通过一组配准的图像对训练集来学习将输入图像映射到输出图像。然而,在许多任务中,很难获得配对的训练数据。我们提出了一种方法,用于在没有配对样本的情况下学习从源领域XXX到目标领域YYY的图像转换。我们的目标是学习一个映射GX→YGX→Y,使得从GXG(X)GX产生的图像分布在使用对抗性损失时与领域 Y 的分布不可区分。由于这种映射存在很大的不确定性,因此我们引入了一个逆映射FY→XFY→X。原创 2023-08-17 17:23:40 · 1190 阅读 · 0 评论 -
【计算机视觉|生成对抗】带条件的对抗网络进行图像到图像的转换(pix2pix)
我们研究了将条件对抗网络作为通用解决方案,用于图像到图像的转换问题。这些网络不仅学习从输入图像到输出图像的映射,还学习了一个损失函数来训练这种映射。这使得可以将相同的通用方法应用于传统上需要非常不同损失公式的问题。我们证明了这种方法在从标签映射合成照片、从边缘映射重建物体和给图像上色等任务中是有效的。此外,自从与本论文相关联的pix2pix软件发布以来,已经有数百名Twitter用户发布了使用我们的系统进行艺术实验的作品。原创 2023-08-14 20:25:13 · 1471 阅读 · 0 评论 -
【计算机视觉|生成对抗】改进的生成对抗网络(GANs)训练技术
本文介绍了一系列应用于生成对抗网络(GANs)框架的新的架构特性和训练过程。我们专注于GAN的两个应用领域:半监督学习以及生成人类视觉上逼真的图像。与大多数有关生成模型的研究不同,我们的主要目标不是训练一个将测试数据分配高概率的模型,我们也不要求模型在不使用任何标签的情况下能够学习得很好。通过我们的新技术,我们在MNIST、CIFAR-10和SVHN的半监督分类任务中取得了最先进的结果。原创 2023-08-14 10:50:37 · 1610 阅读 · 0 评论 -
【计算机视觉|生成对抗】用深度卷积生成对抗网络进行无监督表示学习(DCGAN)
近年来,卷积网络(CNNs)的监督学习在计算机视觉应用中得到了广泛的应用。相比之下,CNNs的无监督学习受到的关注较少。在这项工作中,我们希望弥补CNNs在监督学习和无监督学习之间的差距。我们引入了一类称为深度卷积生成对抗网络(DCGANs)的CNNs,它们具有某些架构约束,并证明它们是无监督学习的有力候选者。在各种图像数据集上的训练中,我们展示了有说服力的证据,证明我们的深度卷积对抗对从对象部分到场景在生成器和鉴别器中都学到了表示的层次结构。原创 2023-08-12 16:29:00 · 1802 阅读 · 0 评论 -
【计算机视觉|生成对抗】条件生成对抗网络(CGAN)
生成对抗网络(Generative Adversarial Nets)[8] 最近被引入为训练生成模型的一种新颖方法。在这项工作中,我们介绍了生成对抗网络的条件版本,通过简单地将我们希望依赖的数据yyy同时提供给生成器和判别器,就可以构建它。我们展示了这个模型可以生成依据类标签条件化的MNIST数字。我们还说明了如何使用这个模型学习一个多模态模型(multi-modal model),并提供了一个初步的图像标记应用示例,在其中我们展示了如何使用这种方法生成并不是训练标签部分的描述性标签。原创 2023-08-11 14:48:22 · 1879 阅读 · 0 评论 -
【计算机视觉|生成对抗】生成对抗网络(GAN)
我们提出了一个通过**对抗(adversarial)**过程估计生成模型的新框架,在其中我们同时训练两个模型:一个生成模型G,捕获数据分布一个判别模型D,估计样本来自训练数据还是G的概率。G的训练过程是最大化D犯错误的概率。该框架对应于一个极小极大的两人博弈。在任意函数G和D的空间中,存在一个唯一解决方案,G恢复训练数据分布,D在任何地方都等于1/2。在G和D由多层感知机定义的情况下,可以通过反向传播训练整个系统。在训练或生成样本期间,不需要任何马尔可夫链或展开的近似推理网络。原创 2023-08-09 22:51:12 · 983 阅读 · 0 评论 -
【计算机视觉|风格迁移】PP-GAN:使用GAN的地标提取器将韩国人像的风格转化为身份证照片
风格转换的目标是在保持图像内容的同时,转移另一图像的风格。然而,传统的风格转换研究在保持面部标志,如眼睛、鼻子和嘴巴,这些对保持图像身份至关重要的特征时存在重大局限性。在韩国肖像中,大多数人都戴着"蓬帽(Gat)",这是一种仅由男性佩戴的头饰。由于其与身份证照片中的头发有着明显的特征差异,转移"Gat"是具有挑战性的。为解决这个问题,本研究提出了一种保持面部身份的同时保留"Gat"的风格转移深度学习网络。与现有的风格转移方法不同,该方法旨在保留风格图像上的纹理、服装和"Gat"。原创 2023-08-07 19:05:36 · 1364 阅读 · 1 评论 -
【计算机视觉|语音分离】期望在嘈杂环境中聆听:一个用于语音分离的不依赖于讲话者的“音频-视觉模型”
我们提出了一个联合的“音频-视觉模型”(joint audio-visual model),用于从混合声音(如其他讲话者和背景噪音)中分离出单一的语音信号。仅使用音频作为输入来解决这个任务极其具有挑战性,并且不能将分离出的语音信号与视频中的讲话者关联起来。在这篇论文中,我们提出了一个基于深度网络的模型,它结合了视觉和听觉信号(incorporates both visual and auditory signals)来解决这个任务。原创 2023-08-02 22:33:46 · 2884 阅读 · 1 评论 -
【计算机视觉|人脸建模】SOFA:基于风格、由单一示例的2D关键点驱动的3D面部动画
我们提出了一个基于2D关键点驱动的3D面部动画框架(2D landmark-driven 3D facial animation framework),无需使用3D面部数据集进行训练。我们的方法将3D面部头像分解为几何(geometry)和纹理(texture)部分。在给定2D关键点作为输入的情况下,我们的模型学习估计FLAME的参数,并将目标纹理转换为不同的面部表情。实验结果表明,我们的方法取得了显著的成果。通过使用2D关键点作为输入数据,我们的方法有潜力在获取完整RGB面部图像有困难。原创 2023-07-31 22:26:40 · 913 阅读 · 0 评论 -
【计算机视觉|人脸建模】3D人脸重建基础知识(入门)
本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处。原创 2023-07-30 21:02:26 · 7682 阅读 · 0 评论 -
【计算机视觉|人脸建模】深度学习时代的3D人脸重建调查报告
随着深度学习的出现和图形处理单元的广泛应用,3D人脸重建已成为生物特征识别最引人入胜的主题。本文探讨了3D人脸重建技术的各个方面。文中讨论了五种技术,分别是deep learning(DL,深度学习)epipolar geometry(EG,极线几何,对极几何)one-shot learning(OSL,单次学习,单样本学习)3D morphable model(3DMM,3D可变形模型)shape from shading methods(SFS,基于阴影形状的重建,由灰度恢复深度)原创 2023-07-30 20:50:50 · 2675 阅读 · 0 评论 -
【计算机视觉|人脸识别】 facenet-pytorch 项目中文说明文档
为了方便中文开发者研究学习人脸识别相关任务、贡献代码,我将本项目的README文件以及位于 `examples` 里面的几个示例脚本中必要的部分翻译成了中文,以供参考。原创 2023-07-20 20:41:00 · 3822 阅读 · 1 评论