【数字视音频】知识点整理

本文详细梳理了数字视音频中的语音部分,涵盖了语音技术引言、语音分析、语音模型以及说话人识别等核心概念。重点讨论了短时平稳假设、时域特征、频域特征、MFCC、DTW、VQ和HMM等关键技术,并简要提及视频帧类型的压缩原理。
摘要由CSDN通过智能技术生成

儿子的复习笔记
http://blog.csdn.net/dango_miracle/article/details/79076562
98帖子
http://www.cc98.org/topic/4320324/1#1

语音部分知识点

– 语音技术引言(语音链,语音产生数字模型,重要假设【短时平稳?】)

语音链
发声 - 传递 - 感知
这里写图片描述

语音产生数字模型
这里写图片描述
我真不知道先人是怎么弄出那么复杂的表达式的orz
然后就每一个阶段都会有一个式子然后最后得到最终结果
U之前是产生,激励模型
之后是声道模型,分为声管模型和共振峰模型

短时平稳假设
语音信号特性是随时间而变化的,本质上是一个非平稳过程。但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应,而这种肌肉运动频率相对于语音频率来说是缓慢的,因而在一个短时间范围内,其特性基本保持不变,即相对稳定,可以视作一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧(frame).一般假设为10-30ms的短时间隔。

– 语音分析(时域特征,端点检测,语图,频域特征,MFCC )

时域特征 时域波形很难反映语音感知特性,且易

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值