语音信号处理

语音信号处理

第一章 绪论

  1. 语音信号处理是以语音语言学数字信号处理为基础的综合性学科,是用数字信号处理技术对语音信号进行处理的一门学科。
  2. 说话人识别(声纹识别)和语种识别是语音识别的两种特殊形式。说话人识别力求找出包含在语音信号中说话人的个性因素,强调不同人之间的特征差异。语种识别则要从一个语音片段中判别是哪个语种,所以要尽可能找出不同语种间的差异。
  3. 语音转换是保持语义信息不变,仅改变一个说话人的语音个性特征,使其听起来像liangyige另一个人的语音个性特征。
  4. 抗噪声技术有三类解决方法:语音增强算法寻找稳健的语音特征基于模型参数适应化的噪声补偿算法。解决噪声问题的根本是实现噪声和语音的自动分离。
  5. 语音信号处理的理论和研究包含两个方面:从语音的产生和感知来对其进行研究将语音作为一种信号来处理

第二章 语音信号处理基础知识

https://wenku.baidu.com/view/5c1b688e112de2bd960590c69ec3d5bbfd0adac1.html

语音和语言

语音(speech)是声音(acoustic)和语言(language)的组合体
语音学:语音中各个音的物理特征和分类的研究。包括发音语音学,声学语音学,听觉语音学。y
人的说话过程分为5个阶段:想说阶段,说出阶段,传送阶段,接受阶段,理解阶段
语音特征:

  • 音色/音质:是一种声音区别于另一种声音的基本特征
  • 音调:声音的高低,取决于声波的频率
  • 音强:声音的强弱,取决于声波的振动幅度
  • 音长:声音的长短,取决于发音时间的长短

音节:说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段
音素:语音发音的最小单位
元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。(元音是音节的主干)
辅音:辅音呼出的是声流,通路的一部分封闭起来或受到阻碍。(出现在音节的前端或后端或前后两端)
浊辅音:发辅音时声带振动
清辅音:发辅音时声带不振动
半元音:声道基本畅通,但某处声道比较狭窄,引起轻微的摩擦声

**浊音的声带振动基本频率(fundamental frequency)称为基音频率。

浊音的基音频率(pitch):**???????????

元音和辅音的区别:
产生元音条件:

  • 声道收到声带振动激励引起共振
  • 在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状
  • 和鼻腔不发生耦合,声音只从口腔辐射出去
    只要不满足其中之一,就是辅音

决定元音音色的主要因素是舌头的形状及位置,口型。在这里插入图片描述
共振峰/共振峰频率:元音的重要声学特性,当元音激励进入声道时会引起共振特性,产生一组共振频率。常用三个共振峰,F1, F2, F3
在这里插入图片描述
调音点:辅音发音时的阻碍位置
调音方式:辅音发音时的阻碍方法
根据调音方式不同分为:
在这里插入图片描述
在这里插入图片描述
超高音特征:音高,音强,音长。(表现说话人感情的重要特征)

汉语语音学

汉语的声母和韵母

21个声母,36个韵母
在这里插入图片描述

汉语音节的一般结构

在这里插入图片描述
过渡段:

汉语声母的结构
  • 擦音:普通话里有6个擦音:[f]、[h]、[s]、[sh]、[x]、[h]。擦音是音节结构框架里的第3段(即擦音)和第5段(即过渡段)构成的。在频谱图上,清擦音最明显的特点是持续时间较长的噪声频谱。不同的擦音有不同的摩擦频谱
  • 塞音/爆破音:普通话里有6个塞音:[b]、[d]、[g]、[p]、[t]、[k],其中前3个是不送气塞音,后3个是送气塞音,它们都是清塞音。送气塞音与不送气塞音的一个重要区别在于:送气塞音的长度要比不送气的长得多,而塞音与擦音的区别在于前者有一段无声的间隙,频谱表现为一段空白区。在间隙之后还有爆破段,产生一个或多个脉冲,经过声道的共鸣后在频谱上表现为频域较宽,时域较窄的冲直条。而擦音没有无声段和爆破段,在频谱上表现为摩擦频谱。
  • 塞擦音:普通话里的塞擦音有6个:[zh]、[z]、[j]、[ch]、[c]、[q],其中前3个为不送气塞擦音,后3个为送气塞擦音。在音长上,送气的远比不送气的长。塞擦音兼有塞音和摩擦音的特性,但又与他们各有差别,主要的区别之一是摩擦段的时长。塞音的摩擦段的时长最长;塞擦音的摩擦段的时长居中。除了摩擦段的时长外,摩擦段振幅变化的动态特性是区别塞音和塞擦音的又一重要标志。
  • 边音:普通话里只有一个边音[l],如“零”字的声母。边音主要由噪音段和过渡段构成。在边音[l]除阻的一瞬间,舌尖突然下降,声道敞开,开始向第一个元音目标值过渡。由于声道形状的突变,造成共振峰模式突变。在频谱图上表现为一个共振峰“断层”。边音也有音渡。边音音渡的起点是断层右边的共振峰起点,音渡的终点是后边的第一个元音的目标值。
  • 鼻音:普通话里只有两个鼻音[m]、[n(ng)]。无论鼻音是声母还是韵尾,都有一个较强的F1。鼻音较强的F1以及分布较均匀的低中频能量(一般不超过4kHz),还有对元音的鼻化作用,是它区别于其他浊辅音的重要特点。
  • 零声母:零声母指的是那些直接以元音开始的音节里的声母,即没有声母、只有韵母的情况,共分两类。一类是非开口呼的零声母,指那些以[i]、[u]、[y]起首的音节里的声母,它们又称半元音。另一类是开口呼的零声母,它们有两个特征:1是音节起始时它的振幅的上升速率较快,在短时间内振幅就可以达到最高值;2是在音节起缓处有爆破段,在频谱图上表现为一条或几条与元音共振峰位置相同的冲直条

语音生成系统和语音感知系统

人的发音器官:肺,气管,喉,咽,鼻,口
声门:喉的部分
声道:声门到嘴唇的呼吸通道
音调周期:声带每开启和闭合一次的时间
音调频率:音调周期的倒数
调音:声道各器官对语音的作用
同时掩蔽:同时存在的一个弱信号和强信号频率接近时,强信号会提高弱信号的听阀。
短时掩蔽:两个声音不同时存在。后向掩蔽,前向掩蔽。

语音信号生成的数学模型

激励模型

浊音激励: 间歇脉冲波类似于斜三角模型(二阶低通),斜三角波形串相当于一个加权了单位脉冲串激励单个斜三角模型的结果。
清音激励: 模拟随机白噪声。

声道模型

声管模型:声道视为多个等长的不同截面积的管子串联
共振峰模型:声道视为一个共振腔
共振峰模型分为级联型,并联型,混合型
级联型:认为声道时一组串联的二阶谐振器,对于一般元音,采用全极点模型。(腔体共振)
在这里插入图片描述
并联型:非一般元音和大部分辅音,必须考虑零极点模型。(腔体产生反共振)
在这里插入图片描述
混合型:根据语音,自动切换
在这里插入图片描述

辐射模型

辐射引起的能量消耗正比于辐射阻抗的实部,辐射模型是一阶高通滤波器
在这里插入图片描述
在这里插入图片描述

语音信号的特性分析

在这里插入图片描述
第一个是【∫】,表现为乱纹,能量小
第一个是【ʌ】,表现为横杠,能量大

  • 4
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值