自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (4)
  • 收藏
  • 关注

原创 06+ER-NeRF论文笔记

大量的实验表明,与以往的方法相比,我们的方法可以呈现出更好的高保真度和音频-嘴唇同步的谈话人像视频,细节逼真,效率高。(2)由于不同的面部区域与语音音频的关联不同[24],不同的空间区域以其独特的方式与音频信号内在关联,并导致独特的音频驱动局部运动。受这些观察结果的启发,我们明确利用空间区域的不平等贡献来指导说话人像建模,并提出了一种新的高效区域感知说话人像NeRF (ER-NeRF)框架,用于真实高效的说话人像合成,该框架以小模型尺寸实现了高质量的渲染、快速收敛和实时推理。不同的是,眨眼的区域注意向量。

2024-05-15 14:19:44 753

原创 04+RAD-NeRF的论文笔记

在本文中,我们提出了一个基于 NeRF 的高效框架,该框架通过利用基于网格的 NeRF 的最新成功实现了talking head的实时合成和更快的收敛。我们观察到,对于说话头来说,变化的音频条件引起的占用变化通常很小,可以忽略不计。在之前的方案中,通常将音频转化为高维特征然后和空间特征进行拼接,然而,线性插值的复杂性随着输入维数的增加呈指数增长。由于变形场的内在连续性,基于变形的方法不擅长建模拓扑变化(如张嘴和闭口),我们选择基于调制的策略来建模头部部分,而基于变形的策略来建模躯干部分,运动模式更简单。

2024-05-15 13:52:36 929

原创 设计一个分数时延滤波器(matlab教程翻译+Python代码实现)

(译者理解:如果截取【-2:3】,则-2、-1位置需要使用滤波卷积后数据,即滤波器的输出被送入输入,非因果索引。在实际应用及计算处理中,通常需要将理想滤波器在一个有限索引窗口内进行截断,尽管这可能导致一定程度的带宽损耗。对于特定的分数延迟FD,可通过求解一系列线性方程组来确定经因果移位后的拉格朗日型延迟滤波器的FIR系数。是未知数,K是滤波器的阶数,(FD)是分数延迟量,n是滤波器系数的指数,h[n]是滤波器的系数。为中心对称,并能够覆盖理想滤波器的主要通带。,该方程组刻画了标准的拉格朗日多项式拟合问题。

2024-01-25 11:14:44 1638 2

原创 傅里叶变换的一些总结

学习傅里叶变换的主要公式

2021-12-17 17:05:33 689 1

原创 说话人验证中的得分归一化(score-normlization)

在实际的说话人验证任务中,注册语音和测试语音之间的得分受到其之间的环境差别影响,为了更好的确定阈值。对于得分进行规整非常的有效。为什么需要说话人得分归一化?不同的说话人直接的得分分布存在差异。相同的说话人得分也会有较大差异,尤其在语义内容不同,信道差异,各种环境噪声的情况下。下面我们将简要介绍四种得分归一化方法(Z-norm,T-norm,S-norm,AS-norm)。首先我们假设注册语音的embedding为eee,测试语音的embedding为ttt,s(e,t)s(e,t)s(e,t)表

2021-04-08 11:30:32 4684 2

原创 使用kaldi中的x-vector在aishell数据库上建立说话人识别系统

使用kaldi中的x-vector在aishell数据库上建立说话人识别系统写在前面整个系统可以分为三个部分,第一,前端预处理部分,主要包括mfcc特征提取,VAD,数据扩充(增加混响、增加不同类型的噪声)等;第二,基于TDNN的特征提取器,该结构生成说话人表征,说话人表征也可以被称为embedding、x-vector;第三,后端处理,对于说话人表征,采用LDA进行降维并训练PLDA模型对测试对进行打分。x-vector的论文发表在ICASSP 2018,kaldi的核心开发者Daniel Pove

2020-11-04 15:00:30 3426 6

原创 label smooth的pytorch实现以及其公式推导(虽然短但是细)

标签平滑:label smooth目的为了解决onehot编码的缺陷,(过拟合问题)假设: 预测的结果为 ypredy_{pred}ypred​, 真实结果为ytruey_{true}ytrue​,类别数量为NNN标签平滑即在ytruey_{true}ytrue​的one-hot编码中进行处理。ynewtrue=(1−ϵ)∗ytrue+ϵ/N{1,0,0}=>{ϵ=0.1}=>{0.933,0.033,0.033}{0,1,0}=>{ϵ=0.5}=>{0.16,0.66,0.

2020-09-10 10:40:44 2261 4

jsp学习笔记

学习jsp时候写的笔记,比较简单 学习jsp时候写的笔记,比较简单 学习jsp时候写的笔记,比较简单

2018-11-19

c语言练习和答案 面试之前必备

c语言 面试 用来练习的,很多题目,必备精品, 网盘搜索,就上盘搜搜 - 最好用的百度云搜索引擎

2017-12-04

最新的eclipse,搬运,,

eclipse,开源软件,最新搬运 ,2017.09.07 eclipse,开源软件,最新搬运 ,2017.09.07 eclipse,开源软件,最新搬运 ,2017.09.07 eclipse,开源软件,最新搬运 ,2017.09.07

2017-09-07

notepad++,文本编译

一款文本编译软件,很多人用,

2016-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除