自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 结合唇动信息的语音任务

在过去的十年里,卷积神经网络(CNN,或称ConvNet)在计算机视觉和语音处理任务中得到了广泛的应用,并取得了良好的性能。然而,由于缺乏大规模的公共AV-LB数据库,导致AV-LB任务的深度学习探索停滞不前。除了双视听流之外,视频流的一个基本要求是嘴唇周围的感兴趣区域(ROI)必须具有足够的分辨率。我们的实验表明,DeepLip在上下文建模方面优于传统的嘴唇生物识别系统,与单峰系统相比,实现了超过50%的相对改进,在测试数据集上的等误差率分别为0.75%和1.11%面部追踪模型结构(可转onnx)

2024-04-01 14:19:53 330

原创 音频数据拼接

【代码】音频数据拼接。

2023-07-31 10:50:08 86 1

原创 常见二阶滤波器的配置 python

信号处理

2023-07-03 10:44:10 386 1

原创 Audacity pcm小幅值转存 wav带底噪

audacity

2022-10-27 17:38:41 239

原创 conda 新建环境

环境管理

2022-09-06 15:19:40 1077

原创 flops统计工具

浮点操作次数统计

2022-07-22 15:23:05 732

原创 自己定义atan2的backward

模型训练出现nan

2022-07-18 14:42:02 232

原创 如何实现对位相乘

调用函数:torch.mul(a, b)是矩阵a和b对应位相乘, 要求维度相同 a.b应用场景 fsmn 的复现 filter 的对位相乘区分函数:torch.mm(a, b)是矩阵a和b矩阵相乘,比如a的维度是(1, 2),b的维度是(2, 3),返回的就是(1, 3)的矩阵。应用场景 线性投影层 改变维度...

2021-07-13 11:14:39 1047

原创 Microsoft Visual C++ 14.0 is required解决方案(win10安装PyPESQ库 避雷!!!)

建议不要装!1.遇到的问题:pip报错Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”

2021-06-15 16:35:31 822 4

翻译 DCCRN详读-翻译-概括

DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech EnhancementDCCRN:用于相位感知的语音增强的深度复数卷积递归网络摘要随着深度学习的成功语音增强在可理解性和可感知质量方面都有了提升。传统上,在时频(TF)上的方法主要是通过简单的卷积神经网络(CNN)或循环神经网(RNN)预测时频的遮罩矩阵或语音频谱。最近的一些研究使用复数频谱图作为训练目标,但训练是在实数网络中完成,其分别预测幅值.

2021-05-25 17:24:28 1496 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除