一种基于敏感度可调的语音情感识别方法及系统 |
技术领域 |
本发明属于语音识别领域,尤其涉及一种基于敏感度可调的语音情感识别方法及系统。 |
背景技术 |
情感是人类交流手段的一种常见的表达方式,在人机交互中起着重要的作用。语音作为人类最直接的交流手段,其本身能传递丰富的情感信息,已被成功用于情感的自动识别中。尽管语音情感识别取得了可应用性的成果,但不同的情感对人类交流和反应有着不同重要性,人类在识别不同情感变化时有着不同的敏感度,例如语气中情感的愤怒、悲伤等特殊情感出现时的敏感觉察对有效的交际有着重要的意义。目前的语音情感识别系统一般采用识别错误率最小的决策方式,可以保证整体识别准确率最高,但对敏感情感识别率难以达到要求,而在很多情境下特殊情感如愤怒、开心等的变化对人与人的交往很重要。 |
现有的语音情感识别方法,主要包括语音特征表示和分类器结构的方法。语音信息本身包含丰富的情感信息,但并不是情感的全部信息,并且音频信号本身存在一些固有缺陷,如信号弱、噪声强等,从单一的语音模型识别情感并不全面。多模态的融合是利用文本、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能,从而提高识别分类器的准确度。不同通道的信息对不同情绪有不同的区别作用,研究表明语音通道对情感强度有较丰富的信息,文本通道包含更敏感的正负情感区分信息。所以,在现有语音情感识别的基础上,将语音与文本两通道的信息融合,在语音情感识别中增加对特殊情感敏感识别功能是人工智能中类人情感交互的亟待解决的问题。 |
发明内容 |
发明目的:针对以上存在问题和不足,本发明提出一种基于敏感度可调的语音情感识别方法及系统,该方法及系统可以将语音与文本两通道的信息融合,通过设置情感的敏感度权值,得到不同情感的概率值。 |
技术方案:为实现本发明的上述目的,本发明所采用的技术方案是:一种基于敏感度可调的语音情感识别方法,包括如下步骤: |
(1.1)接收用户语音信号,提取语音的声学特征矢量; |
(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量; |
(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值; |
(1.4)设置不同情感的权值,得到语音情感的最终判断识别结果。 |
其中,所述情感包括高兴、生气、悲伤和平静。 |
其中,在步骤(1)中,使用如下方法提取语音的声学特征矢量: |
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征; |
(1.2)应用全局统计函数,将每个语音句子的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度声学特征矢量。 |
其中,在步骤(2)中,使用如下方法获取文本信息的文本特征矢量: |
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计; |
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表; |
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。 |
其中,在步骤(3)中,使用如下神经网络结构分别训练声音数据集和文本数据集得到所述语音情感识别模型和文本情感识别模型: |
a)分类器结构为两个卷积层加上一个全连接层,第一层使用卷积核数目采用32个;第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果; |
b)第一、第二层的激活函数采用“relu”函数,训练的d |
一种基于敏感度可调的语音情感识别方法及系统
最新推荐文章于 2022-09-05 16:46:26 发布