m0_55217431-CSDN博客

原创语音视频工具

获取视频长度：import waveimport contextlibimport cv2audiofile = '/media/pc/disk/apt/pycharm-community-2021.2.2/pyhtonProject/talking_face/AD-NeRF-master/dataset/vids/001.wav'with contextlib.closing(wave.open(audiofile,'r')) as f: frames = f.getnframes()

2021-11-20 19:56:24 100

原创 (Talking face) EVP

摘要尽管之前在生成音频驱动的说话人脸方面取得了成功，但之前的大多数研究都集中在语音内容与嘴形之间的相关性上。面部情感是自然人脸上最重要的特征之一，但在他们的方法中总是被忽视。在这项工作中，我们提出了情感视频肖像 (EVP)，这是一种用于合成具有由音频驱动的生动情感动态的高质量视频肖像的系统。具体来说，我们提出了交叉重构情感解开技术，将语音分解为两个解耦空间，即与时长无关的情感空间和与时长相关的内容空间。通过解开的特征，可以推断出动态的 2D 情感面部标志。然后我们提出了目标自...

2021-10-20 09:29:22 1979 1

原创（T2I）

1.Generative Adversarial Text to Image Synthesis介绍：《Generative Adversarial Text to Image Synthesis》阅读笔记 - 知乎paper：https://arxiv.org/abs/1605.05396code：https://github.com/reedscot/icml20162.Learning What and Where to Draw(2016)GAWWN:Learning .

2021-10-20 09:27:40 943

原创 DALL-E

CogView整体的算法框架与DALL-E相比更为简洁，文本部分的token转换已经十分成熟，下文不再做进一步介绍；图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图像生成类任务时，模型会通过计算一个Caption Score对生成图像进行排序，从而选择与文本最为匹配的图像作为结果。摘要：按照传统，文本到图像的生成一直专注于寻找更好的建模假设，以便能够在固定数据集上进行训练。这些假设可能涉

2021-10-15 17:11:06 1096

原创 VAE系列

1.理解类任务：给出P（y|x)，对于y的概率密度进行估计，最后给出新的x，能够预测y2.生成类任务：要估计数据本身的概率密度P（x），当学到数据的分布后，从数据中采样一个x，产生新的数据，难点在于样本数据的有限性，数据集难以覆盖所有情况。解决方案：加入先验知识，给问题加入限定条件，如下： 1.GPT，对于相近的句子，对应位置的词向量也非常接近，如apple，orange，可以应对不同的组合方式，产生没有过的样本点 2.GAN：假定数据样本点...

2021-10-15 16:37:41 103

原创 (T2I) VILT

该架构极为简单：它采用展平后的N*N个图像 patch 作为输入，他们直接相互独立，通过线性层对其进行映射为d维嵌入特征，然后采用两个残差操作对投影特征进行更新：（i）一个简单的线性 patch 交互层，独立用于所有通道；（ii）带有单一隐藏层的 MLP，独立用于所有 patch。在网络的末端，这些 patch 被平均池化，进而馈入线性分类器。然后将输出的d维嵌入特征进行平均得到d维图像表达，最后将图像表达送入线性分类层预测图像对应标签，训练使用交叉熵损失该架构是受 ViT 的启发，但更加简单：不采用.

2021-10-12 16:38:31 2030

转载 notebook虚拟环境搭建

Jupyter Notebook踩坑记录_橙的博客-CSDN博客

2021-10-12 16:35:55 86

翻译 ResMlp

该架构极为简单：它采用展平后的N*N个图像 patch 作为输入，他们直接相互独立，通过线性层对其进行映射为d维嵌入特征，然后采用两个残差操作对投影特征进行更新：（i）一个简单的线性 patch 交互层，独立用于所有通道；（ii）带有单一隐藏层的 MLP，独立用于所有 patch。在网络的末端，这些 patch 被平均池化，进而馈入线性分类器。然后将输出的d维嵌入特征进行平均得到d维图像表达，最后将图像表达送入线性分类层预测图像对应标签，训练使用交叉熵损失该架构是受 ViT 的启发，但更加简单：不采用.

2021-09-08 18:14:31 1039

m0_55217431的博客