自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(754)
  • 资源 (4)
  • 收藏
  • 关注

原创 3D-Aware Multi-Class Image-to-Image Translation with NeRFs

Recent advances in 3D-aware generative models (3D-aware GANs) combined with Neural Radiance Fields (NeRF) have achieved impressive results. However no prior works investigate 3D-aware GANs for 3D consistent multi-class image-to-image (3D-aware I2I) transla

2024-04-10 17:37:42 624

转载 一文带你入门 3D Gaussian Splatting

3D 高斯的协方差矩阵 Σ� 表示了其在空间中的形状和方向,它可以用一个对称正定矩阵来表示,也可以用一个对角矩阵和一个旋转矩阵的乘积来表示,以减少参数的数量。3D 高斯的权重 �� 表示了其在场景中的贡献,它可以用一个非负的标量来表示,也可以用一个球谐函数来表示,以增加其与视图相关的表达能力。很形象,我们可以想象一下,把一个雪球(高斯球)扔到一个玻璃盘子上,雪球散开以后,在撞击中心的雪量(对图像的贡献)最大,而随着离撞击中心距离的增加,雪量(贡献) 减少。在整个空间中,每个高斯球又是离散的。

2024-03-01 10:15:54 6087 1

转载 MWCNN中使用的haar小波变换 pytorch

用图像表述如图所示:图中a表示原图,图b表示经过一级小波变换的结果,h1 表示水平反向的细节,v1 表示竖直方向的细节,c1表示对角线方向的细节,b表示下2采样的图像。B)高频采用差均值,即b[2]和b[3],用于记录图像的细节信息,这样在重构时能够恢复图像的全部信息。在这里的行x1=x_LL/2, x2=x_HL/2, x3=x_LH/2, x4=x_HH/2。A)低频采用和均值,即b[0]和b[1],和均值中均值存储了图像的整体信息。# 使用哈尔 haar 小波变换来实现二维逆向离散小波。

2023-11-27 15:27:37 1214

转载 可逆神经网络的研究及其在图像中应用

一、摘要可逆神经网络(INN)自被提出以来,就受到了广泛关注。由于其双射构造和高效可逆性,INN被用于各种推理任务,如图像隐藏、图像重缩放、图像着色、图像压缩和视频超分辨率等等。本文针对最新关于INN在图像方面应用的文献进行介绍,包括每篇文献的基本原理和个人理解。最后对所介绍的文献进行总结,指出各自的优缺点并对未来INN在图像方面应用展开思考。Invertible neural network (INN) has been widely concerned since it was proposed. Be

2023-11-10 10:33:41 564

转载 Robust Invertible Image Steganography

在正向转换过程中,CANP可以将输入的图像对[ x s , x h ] [x_s,x_h][x。一同输入backward块中,得到了恢复的秘密和host图像[ X s ′ , X h ′ ] [X_s',X_h'][X。(为了输入方便,这里用y’代替图中y~)图像,通过特征增强模块以消除噪声和jpeg压缩的影响,随后从y ′ y'y。,双射RIIS可以在反向传递中生成[ X s ′ , X h ′ ] [X_s',X_h'][X。基于流的可逆块将输入的[ X s , X h ] [X_s,X_h][X。

2023-11-01 14:11:00 525

转载 跑通代码-ICCV2021-HiNet: Deep Image Hiding by Invertible Network

第一排是原始的宿主图像,第二排是原始的水印图像,也就是需要嵌入到原始宿主图像的信息,第三排是嵌入水印图像之后的图像,能看到,嵌入水印之后的图像与原始的图像非常的相似,肉眼几乎无法分辨,说明算法的不可感知性很好,最后一排是提取出来的水印图像,与第二排的原始水印图像很相近,说明算法的鲁棒性很好,恢复水印图像的能力很强。在图像水印算法中,应该对嵌入水印图像之后的图像进行图像攻击,然后再提取水印图像,如果依然能很好的提取出来水印图新,说明算法的鲁棒性很好,这里的攻击可以是噪声攻击,滤波攻击,几何攻击等等。

2023-10-24 10:36:41 1391 5

转载 图像隐写2021年至今的相关论文(含公开代码)

2023 - NAS-StegNet:通过神经架构搜索的轻量级图像隐写网络 - https://github.com/wang-MIG-CFM-UESTC/nas_stegan。2022 - E2Style:提高StyleGAN反演的效率和效果(利用GAN反演做信息隐藏) - https://github.com/wty-ustc/e2style。2022 - StegGAN:使用条件生成对抗网络在图像中隐藏图像 - https://github.com/brijeshiitg/StegGAN。

2023-10-24 10:22:25 527 1

转载 基于可逆神经网络的图像隐藏技术 (ICCV 2021) - HiNet: Deep Image Hiding by Invertible Network

在 [5] 中,通过对秘密图像像素的排列来提高隐藏的安全性。然而,所有这些方法都采用了两个子网络来进行图像隐藏:隐藏网络将秘密图像 隐藏成覆盖图像来生成一个隐写图像 和揭示网络恢复从 恢复秘密图像,如图 1(a) 所示,隐藏和揭示网络有两种参数,这是通过简单连接实现。为了验证方法的有效性,将其与几种最先进的 (SOTA) 图像隐藏方法进行了比较,包括一种传统的图像隐藏方法 4bit-LSB,以及三种基于深度学习的方法:HiDDeN[41]、Weng et al. [32] 和Baluja[5]。

2023-10-24 10:08:48 491

转载 Diffused Heads

输入为Motion frames(t-2,t-1时刻图像),Identity frame随机选择的一帧,Noisy target当前时刻加噪图像。版权声明:本文为CSDN博主「xpc_buaa」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。采用DDIM加速采样,为了强制模型尽可能从身份帧中获取关于人物外貌的信息,把每个运动帧转换成黑白图像。为了维持生成图像的连续性,引入了motion frames进行自回归的预测。128*128分辨率。

2023-10-10 15:44:11 62

转载 Pika Labs:“目前最好的文生视频AI”,人人都能制作微电影

Pika并不是世界上第一个“文生视频”“图生视频”的AI工具平台,但考虑到能与之媲美的Runway还需要付费计时使用,Pika体验门槛如此之低、生成质量如此之高,已成为众多网友心中最好用的AI。生成后你会在消息列表中看到自己的视频,可以点击右侧上方的收件箱,点击提及菜单,就可以看到@自己的所有消息了。如果想用自己上传的图像生成视频,可在prompt后点击”增加字样“就会弹出上传图片框,将图像拖入后,直接发送即可。在 Discord 频道的左侧,找到 "generate" 子区,选择一个进入。

2023-08-14 22:01:49 2501 1

转载 RAD-NeRF模型训练教程

激发了我部署项目的好奇心。整个安装过程就是这样的,这里遇到最多的问题就是 C++ 编译的问题,找了很多资料都没有把这个虚拟人项目部署说得精准的,所以这篇文章就应运而生了,解决大家在部署过程中遇到的难题。cuda_toolkit 可以直接通过我上面的链接进行下载安装,直接一路 Next 安装就可以了,cub_home 也是下载完之后,在系统的环境变量里面进行设置如下图。然后找到刚才的虚拟环境里的 pytorch3d 的文件路径,激活虚拟环境之后,需要输入下面两个命令就可以执行安装了。

2023-08-10 15:25:33 3650 3

转载 造梦师手记:Stable Diffusion一键换脸插件

如果你的roop安装后不能正常工作,压根不换脸,到上述几个目录排查,是否安装好了模型文件,如果有漏网之鱼,可以手工下载并拷贝过去,然后重启Stable Diffusion启动器,就可以正常使用了!roop程序不大,但下载了不少模型,并且分散在各个目录里,如果因为网速原因,有些无法正常下载的模型,系统不会出现提示,但画图的时候会失败,只能自行查找原因,下载模型并安装到相应位置。当然了,AI换脸的能力是有限的,不可能100%无瑕疵,还要结合比较合适的提示词以及模型,但是效果已经很让人震惊了。

2023-07-01 17:09:49 1604

转载 Image.alpha_composite( )——实现一张背景透明图像和一张背景不透明图像的合成

在很多小伙伴没有ps的基础能力的情况下,想合成一张背景透明的图像和一张背景不透明的图像属实有些无从下手,所以在这里就给大家用python提供一些解决方案,先上图⬇️,分别是mask.jpg, image.jpg,final.jpg。其实和Image.alpha_composite( )的差别不大,在细节上尤其是半透明图案的处理上,Image.alpha_composite( )的效果会更好。------------我是非常可爱的分割线------------先放上各种方法的对比图~嗷呜呜呜呜呜呜呜!

2023-06-26 16:05:15 755

转载 python 3.9.7 安装 PocketSphinx

2. 切换到下载文件目录,进入cmd模式,pip install pocketsphinx-0.1.15-cp39-cp39-win_amd64.whl。版权声明:本文为CSDN博主「work-harder」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/seeker3/article/details/123288501。3. 进入python后,导入pocketsphinx,没有任何错误提示;

2023-06-19 10:15:12 1224

转载 TorToiSe语音克隆程序使用心得

我一直都对语音克隆这个技术非常感兴趣,但是之前并没有找到好用的TTS(text-to-speech)程序,网上很多现成且易用的TTS要么是没法定制音色,要么是只能定制自己的音色不能定制名人的(可能要求你读出特定的一段文字),要么是定制音色需要收费,要么是生成的语音显得非常僵硬和粗糙,要么是学习音色需要非常长的音频、且学习过程也很慢……

2023-06-11 08:02:27 772 1

转载 举世无双语音合成系统 VITS 发展历程(2023.03.31 SNAC)

论文:Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform。可以利用自我监督的语音来适应新的说话人而没有标注。论文:Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation。

2023-04-30 14:16:08 1556

转载 so-vits-svc环境安装和AI训练

这个视频就是把周杰伦的声音转换成了我自己的声音。5.既然原作者选择删除项目,那么后续再投稿就不要再带上作者和原项目地址了,除非你解决了所有版本问题而且没有伤害性内容。现在推荐用4.0版本,大幅优化了显存占用,8G显存已经可以直接推理一整首歌了。今天把笔记本电脑重装了系统,顺便重新弄了一遍so-vits-svc,过程非常折磨。现在的4.0版本已经对显存占用进行了优化,可以直接推理一整首歌了,不需要切片。由于很多人的对项目的滥用,原作者已经删除了项目。我把折腾的过程整理了两个文档,文档我放在百度网盘了。

2023-04-29 17:19:26 6168 4

翻译 VideoReTalking:用于野外会说话的头部视频编辑的基于音频的唇形同步

中,我们简要概述了𝐿大号斜体L-Net,包含两个子网络,下标𝐿𝑎{L}_{a}italic_L start_POSTSUBSCRIPT italic_a end_POSTSUBSCRIPT和下标𝐿𝑣{L}_{v}italic_L start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT,分别用于音频和视频处理。,我们采用分而治之的策略,首先中和面部表情,然后使用修改后的帧作为唇形生成的姿势参考,考虑到所有参考面现在都具有相同的规范表情,这样更准确。中举例说明这种现象。

2023-04-27 15:55:54 5657 2

转载 AAAI22_One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning_阅读笔记

该文章针对的任务是one-shot的说话人物生成,与传统的方法的区别之处在于,该文章先使用同一个人的语料进行训练,随后使用他人的人脸进行生成。提供了一个说话人生成的新视角,即从同一人物的大量数据中学习audio-visual的关系,随后泛化到不同人物上。

2023-04-27 12:25:43 354

转载 通过3DMM模型驱动单张头像《3D-FM GAN: Towards 3D-Controllable Face Manipulation》

分离训练使用了content loss,强调了生成和输入的condition的一致性。又引入了multiplicative co-modulation的架构平衡两者。混合式调制,把照片和渲染输入到W,W+encoder当中,用元素间乘法来融合。引入了两种训练策略,既保留人脸的identity,又保留了可编辑性。消融实验表明使用两种策略可以更好保持脸部一致,又保留脸部的可编辑。分离式地调制,把照片和渲染分别输入到不同的encoder当中。引入了StyleGAN,结合了真实照片和渲染模型的输入。

2023-04-09 09:59:38 234

转载 Stitch it in Time: GAN-Based Facial Editing of Real Videos

生成对抗网络在其潜空间内编码丰富语义的能力已被广泛用于面部图像编辑。然而,事实证明,在视频上复制他们的成功具有挑战性。高质量的面部视频集是缺乏的,在视频上存在一个需要克服的基本障碍——时间一致性。我们认为这种障碍很大程度上是人为的。源视频在时间上已经是连贯的,偏离这种状态的部分原因是在编辑思路中对各个组件的粗心处理。我们利用StyleGAN的自然对齐和神经网络学习低频函数的趋势,并证明它们提供了强一致的先验。我们利用这些见解,提出了一个视频中人脸语义编辑的框架,并证明了与目前最先进技术相比我们的框架具有显著

2023-04-06 14:12:03 251

转载 SadTalker:Stylized Audio-Driven Single Image Talking Face Animation(CVPR2023)

用语音音频制作静态人像图像是一项具有挑战性的任务,在数字人类创造、视频会议等领域有许多重要的应用。以往的研究主要集中在唇动的生成[2,28,29,48],因为唇动与言语有很强的联系。最近的工作还旨在生成一个包含其他相关动作的逼真的谈话面部视频,例如,头部姿势。他们的方法主要是通过地标[49]和潜在翘曲引入二维运动场[37,38]。但是生成的视频质量仍然不自然,受到偏好pose[16,48]、月模糊[28]、身份修改[37,38]、扭曲脸[37,38,46]的限制。

2023-04-06 13:43:39 2273

转载 python:savgol_filter的简单使用

它对信号的操作是在时域内对window_length内的数据进行多项式拟合。这种滤波其实是一种移动窗口的加权平均算法,但是其加权系数不是简单的常数窗口,而是通过在滑动窗口内对给定高阶多项式的最小二乘拟合得出。版权声明:本文为CSDN博主「一从际发」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。即window_length越小,polyorder越大,则结果越接近原始曲线。即window_length越大,polyorder越小,则平滑效果越强。越小,则更贴近原始曲线。

2023-03-24 21:02:59 513

转载 Ai画画——Textual Inversion, Hypernetwork, Dreambooth三种模型训练心得

它将给定内容插入到输出中,缺点是如果你用 Dereambooth,它会用训练图替换所有相似的对象。它根据模型引用给定的图像并选择最匹配的图像。之后在输入给AI的文字中,即可通过改变训练好的几个相貌tag的比例权重,融合出现实里不存在,同时在系列图片里长相可以保持一致的角色啦!它会改变图像的整个输出,而无需在提示中调用它来浪费您宝贵的令牌,它可以在您的设置选项卡中进行设置,该选项卡将自动应用于您的所有图像。高学习率和过多的训练步骤将导致过度拟合(换句话说,无论提示如何,模型只能从训练数据生成图像)。

2023-03-20 17:59:19 4092 1

转载 低显存(4g)训练LoRA模型的一些经验+自训练四季夏目LoRA模型分享

于是我用了网上找到的柚子社画风的模型,并且由于枣子姐的美人痣太戳我xp了,我就在mole under eyes上打了好几托括号,结果变雀斑了,再加上负面tag没打好的原因,肢体也开始降san了(由于审核的原因,这个图删掉了)在经过一系列的调试魔法,现在枣子姐的形象大概稳定了下来,接下来就是慢慢靠近原画风,慢慢让她画出不同动作不同场景的作品,同样,在以下图片中都是借鉴元素法典里的魔法来调整效果的。接着继续尝试改进,首先是又换了一个模型,跑了一堆图出来,能看的也有,但是都不太符合我对枣子姐的幻想((嘿嘿嘿))

2023-03-12 09:57:27 16326 3

转载 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼

但DDPM不一样,它通过“拆楼”的方式重新定义了一个自回归方向,而对于所有的像素来说则都是平权的、无偏的,所以减少了Inductive Bias的影响,从而提升了效果。正所谓“饭要一口一口地吃”,楼也要一步一步地建,DDPM做生成模型的过程,其实跟上述“拆楼-建楼”的类比是完全一致的,它也是先反过来构建一个从数据样本渐变到随机噪声的过程,然后再考虑其逆变换,通过反复执行逆变换来完成数据样本的生成,所以本文前面才说DDPM这种做法其实应该更准确地称为“渐变模型”而不是“扩散模型”。也简单介绍过扩散模型。

2023-03-05 17:13:40 291

转载 python srt字幕与视频合并

‘5’, ‘00:00:07,010 --> 00:00:08,230’, ‘你就要辛苦一下了’], [‘6’, ‘00:00:09,290 --> 00:00:10,900’, ‘这一次我们要一起合作’], [‘7’, ‘00:00:11,020 --> 00:00:12,040’, ‘有目标是谁’],。[[‘1’, ‘00:00:00,000 --> 00:00:00,790’, ‘活着’],print('视频仅支持avi以及mp4,字幕仅支持srt格式')'''调用方法示例'''

2023-02-16 20:23:31 1137

转载 Audio-Driven Facial Animation 论文解读

为了让结果更自然,模型需要考虑复杂的脸部肌肉和皮肤组织之间的关系,考虑phoneme(音素)之间的相互依赖,作者采用data-driven的方法,端到端训练神经网络,学习训练数据中的复杂运动关系。接下来机器学习被应用于学习协同发音,然后是合成动画的串联阶段,或用于在各个阶段之间进行映射,例如音素分类,将文本映射到音素,将音素映射到视素,或将输入音频特征映射到高斯混合模型的控制参数。实际复现和训练,该论文效果还是不错的,能实现基础的嘴唇驱动,算法实时性很好,网络模型小、速度极快,可以应用于行业解决方案。

2022-12-28 08:56:48 557

转载 汉语(普通话)的音素对齐

highlight=mandarin#example-2-generate-mandarin-dictionary),没在文档里面找到现成的,不过逛Github的时候在一个停止维护的项目MTTS里面找到了一份字典https://github.com/Jackiexiao/MTTS/blob/master/misc/mandarin-for-montreal-forced-aligner-pre-trained-model.lexicon。oov指的是字典里没有的拼音,对齐文件在biaobei文件夹里。

2022-12-26 20:28:55 1618

转载 python输出文本对齐_speech-aligner,是一个从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具...

配置:支持通过配置文件和命令行读取参数,建议使用如--config=egs/cn_phn/conf/align.conf。speech-aligner,是一个从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具。其他数学库,可查看cmake/Modules/FindBLAS.cmake,了解支持的数学库。示例egs/cn_phn中,使用的音素列表,来自另一个中文词典开源项目DaCiDian。# 查看输出对齐结果,包含: 文件名,音素时间起点(秒) 音素时间终点(秒) 音素。

2022-12-26 18:35:10 514

转载 论文阅读笔记:SCAN: Learning to Classify Images without Labels

摘要当ground-truth缺席时,我们能自动将图像分组成语义上有意义的聚类吗?在本文中,我们跳脱出最近的工作,而提倡一种两步方法——将特征学习和聚类解耦。首先,利用表征学习中的自监督任务获得语义上有意义的特征。其次,我们使用获得的特征作为先验知识,采用可学习的聚类方法。通过这样做,我们消除了学习依赖于(当前端到端学习方法中广泛存在的)低级特征的能力。简介和相关工作在有监督的设置下,网络擅长学习可随后聚集到预定类别中的区别性特征表示。然而,当在训练时无法得到ground-truth标签时,会发生什么?

2022-11-11 11:02:15 522 1

转载 InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)

给定一个提供有用的形状和对齐提示的语义映射,他们使用特定于类的gan的输出集合创建一个拼贴图. 相比之下,我们的工作集中在无条件设置上,这更具挑战性,因为我们的多个生成器需要相互协作,以一起生成连贯的形状和外观,而无需访问提示的语义映射。带有孔的输入显示在插图中。核心思想:不使用单个GAN对复杂的域进行建模,我们提出一种新的方法结合多个预先训练过的GAN,其中一个生成一个总体画布(如人体)和一组专门的GAN,或插入(inset),关注不同的部分(例如,脸、鞋子),这些部分可以无缝地插入到总体的画布。

2022-10-31 08:59:13 913

转载 字幕文件srt处理之pysrt

字幕文件就是在播放视频的时候加载的用来记录显示字幕的文件。文本格式字幕的扩展名通常是 ass、srt、smi、ssa 或 sub,因为是文本格式,所以尺寸很小,通常不过百十来 KB。其中 srt 文本字幕是最流行的,因为其制作和修改非常简单:一句时间代码 + 一句字幕。

2022-10-10 14:25:29 1299

转载 BiSeNet脸部解析BiSeNet脸部解析

另外本项目适合为妆容迁移等脸部任务提供脸部各个部位的辅助信息,作为一个轮子是很好的。

2022-06-23 21:08:31 341

转载 linux下解决: Argument list too long问题

-bash: /usr/bin/cp: Argument list too long使用mv命令也是如此。找到大神提供的解决方案是使用for循环解决:for i in oldPath/*; do cp "$i" newPath/; done以上方法同样适用于mv,rm等命令

2022-05-22 19:01:28 1275

原创 stylegan2等应用卡死不动的看这里

感谢您提供堆栈跟踪。你得到的错误是我认为发生的😄它有时会发生在编译过程被进程锁定的忍者身上。要解决此问题,请尝试查看路径:~/.cache/torch_extensions/fused/~/.cache/torch_extensions/upfirdn2d/(或者你的火炬扩展缓存在哪里)在那里,看看你是否有一个以.lock或类似性质结尾的文件。如果是这样,请删除该文件并尝试重新运行该脚本。它可能不一定在我上面提到的确切路径中。你能试着用它找到它吗find / -name "torch_e

2022-04-27 10:45:03 856

转载 解决python调用 ffmpeg时 ‘ffmpeg‘ 不是内部或外部命令,也不是可运行的程序,ffmpeg乱码

解决python调用 ffmpeg时 ‘ffmpeg‘ 不是内部或外部命令,也不是可运行的程序streamlink’ �����ڲ����ⲿ���Ҳ���ǿ����еij������������ļ���花了我三四个小时,百度,谷歌,自己猜问题解决办法:下面的 Default encoding for properties files设置为GBK,OK了我的问题是cmd命令执行的exe文件没有加到环境变量,乱码完全看不到报错信息我的cmd编码是936,也就是GBK模式可能是cmd编码与p

2022-04-24 10:29:12 5848 1

转载 Windows 10 x64下编译安装ninja

1. 准备工作S1. 安装git for Windows,下载地址:https://git-scm.com/download/winS2. 安装Visual Studio 2015S3. 安装Python 3.x2. Clone ninja库打开git bash,分别运行如下两行命令:git clone git://github.com/ninja-build/ninja.git && cd ninjagit checkout release123. 编译ni

2022-03-15 10:46:46 3216

转载 本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍

万万没想到,把照片变3D这件事,离了神经网络也是这般丝滑。而在此之前,新视角合成这方面的“大牛”,是近两年大火的NeRF(神经辐射场)。它是一个简单的全连接神经网络,使用2D图像的信息作为训练数据,还原拥有体积的3D场景。但最近,来自伯克利大学的研究人员提出了一个叫做Plenoxels的方法。不需要神经网络,仅仅通过梯度下降和正则化便实现了同样的效果,而且速度还快了100倍!那么他们是如何做到这点的呢?由NeRF到Plenoxels的进化为了帮助大家理解Plenoxels,我

2022-03-09 13:12:20 282

转载 AD-NeRF:用于说话人头部合成的音频驱动神经辐射场

作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学与多媒体等人工智能相关学科密切关注的重要研究课题。近日,中国科学技术大学联合的卢深视科技有限公司、浙江大学与清华大学共同打造的 AD-NeRF 技术,引发了学界及业界关注。来自中科大张举勇课题组等机构的研究者们在近期大火的神经辐射场(NeRF: Neural Radiance Fields)技术基础上,提出了一种由语音信号直接生成说话人视频的算法。仅需要目标人物几分钟的说话视频,该方法即可实现对该人物超级逼真的形

2022-03-08 15:36:08 1538

ffmpeg-4.2.1-win64-win10-然后pip就好

ffmpeg-4.2.1-win64-win10-然后pip就好

2022-06-06

dlib安装 dlib-19.19.0-cp38-cp38-win_amd64.whl.whl

下载后 pip installl dlib-19.19.0-cp38-cp38-win_amd64.whl.whl

2022-04-20

dlib-19.17.99-cp37-cp37m-win_amd64.whl

dlib安装 dlib-19.17.99-cp37-cp37m-win_amd64.whl 下载后 pip install dlib-19.17.99-cp37-cp37m-win_amd64.whl

2022-04-20

coreseek-4

coreseek 稳定版本 欢迎大家下载

2011-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除