- 博客(11)
- 收藏
- 关注
原创 语音视频工具
获取视频长度:import waveimport contextlibimport cv2audiofile = '/media/pc/disk/apt/pycharm-community-2021.2.2/pyhtonProject/talking_face/AD-NeRF-master/dataset/vids/001.wav'with contextlib.closing(wave.open(audiofile,'r')) as f: frames = f.getnframes()
2021-11-20 19:56:24
100
原创 (Talking face) EVP
摘要尽管之前在生成音频驱动的说话人脸方面取得了成功,但之前的大多数研究都集中在语音内容与嘴形之间的相关性上。 面部情感是自然人脸上最重要的特征之一,但在他们的方法中总是被忽视。在这项工作中,我们提出了情感视频肖像 (EVP),这是一种用于合成具有由音频驱动的生动情感动态的高质量视频肖像的系统。 具体来说,我们提出了交叉重构情感解开技术,将语音分解为两个解耦空间,即与时长无关的情感空间和与时长相关的内容空间。 通过解开的特征,可以推断出动态的 2D 情感面部标志。然后我们提出了目标自...
2021-10-20 09:29:22
1979
1
原创 (T2I)
1.Generative Adversarial Text to Image Synthesis介绍:《Generative Adversarial Text to Image Synthesis》阅读笔记 - 知乎paper:https://arxiv.org/abs/1605.05396code:https://github.com/reedscot/icml20162.Learning What and Where to Draw(2016)GAWWN:Learning .
2021-10-20 09:27:40
943
原创 DALL-E
CogView整体的算法框架与DALL-E相比更为简洁,文本部分的token转换已经十分成熟,下文不再做进一步介绍;图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图像生成类任务时,模型会通过计算一个Caption Score对生成图像进行排序,从而选择与文本最为匹配的图像作为结果。摘要:按照传统,文本到图像的生成一直专注于寻找更好的建模假设,以便能够在固定数据集上进行训练。这些假设可能涉
2021-10-15 17:11:06
1096
原创 VAE系列
1.理解类任务:给出P(y|x),对于y的概率密度进行估计,最后给出新的x,能够预测y2.生成类任务:要估计数据本身的概率密度P(x),当学到数据的分布后,从数据中采样一个x,产生新的数据,难点在于样本数据的有限性,数据集难以覆盖所有情况。 解决方案:加入先验知识,给问题加入限定条件,如下: 1.GPT,对于相近的句子,对应位置的词向量也非常接近,如apple,orange,可以应对不同的组合方式,产生没有过的样本点 2.GAN:假定数据样本点...
2021-10-15 16:37:41
103
原创 (T2I) VILT
该架构极为简单:它采用展平后的N*N个图像 patch 作为输入,他们直接相互独立,通过线性层对其进行映射为d维嵌入特征,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。然后将输出的d维嵌入特征进行平均得到d维图像表达,最后将图像表达送入线性分类层预测图像对应标签,训练使用交叉熵损失该架构是受 ViT 的启发,但更加简单:不采用.
2021-10-12 16:38:31
2030
翻译 ResMlp
该架构极为简单:它采用展平后的N*N个图像 patch 作为输入,他们直接相互独立,通过线性层对其进行映射为d维嵌入特征,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。然后将输出的d维嵌入特征进行平均得到d维图像表达,最后将图像表达送入线性分类层预测图像对应标签,训练使用交叉熵损失该架构是受 ViT 的启发,但更加简单:不采用.
2021-09-08 18:14:31
1039
原创 Transformer
Seq2seqtransformer其实是一种序列到序列的转换,但是我们不知道输出的长度,应该由机器来自己决定,一个例子就是 语音辨识,输入时声音讯号,其实就是一串vector,
2021-06-23 18:52:13
337
转载 (I2I) Image to image Translation with Conditional Adversarial NetWorks(cGAN)
Image-to-Image Translation with Conditional Adversarial NetWorks 这是加里福利亚大学在CVPR 2017上发表的一篇论文,讲的是如何用条件生成对抗网络实现图像到图像的转换任务。 > 原文链接:https://arxiv.org/abs/1611.07004 > 论文主页:https://phillipi.github.io/pix2pix/,其中包含了PyTorch、Tensorflow等主流框架的代码实现
2021-06-13 20:21:58
383
原创 2021-06-05生成对抗网络一 李宏毅(学习笔记)
把network作为generator使用,特别的地方就是network的输入会加上一个随机变量z,这个z可能是从某一个simple distribution,也就是同时看输入x和z得到输出
2021-06-09 20:01:02
561
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人