使用深度神经网络进行自动呼叫评分（二）

最新推荐文章于 2022-03-17 09:43:30 发布

架构师小秘圈

最新推荐文章于 2022-03-17 09:43:30 发布

阅读量221

点赞数

640?wx_fmt=jpeg

导言

在上一篇文章中，分享了我们在特征提取和语音识别方面的经验。具体来说，我们使用呼叫者diarization和LIUM库在单独的短语中检测语音。本文中将分享如何使用XGBoost以及LSTM和XGB的组合检测整个音频文件中的语音。

检测整个文件中的语音

如果文件至少包含一个违反规则的短语，将会标记为可疑文件。使用该方法标记2,500个文件。

为了提取特征，是用哪个相同的原理和相同的ANN架构，唯一的区别是，扩展了网络架构以适应特征空间的新维度。

通过最佳神经网络参数，实现了85%的分类精度。

640?wx_fmt=png

XGBoost特征提取

XGBoost模型需要为每个文件提供固定的功能。为了满足功能需求，创建了几个信号和统计信息（参数）。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

使用了以下统计数据：

信号的平均值
信号前10秒的平均值
信号最后3秒的平均值
信号局部最大值的平均值
信号前10秒的局部最大值的平均值
信号最后3秒的局部最大值的平均值

计算每个信号的所有统计数据，出记录长度外，功能总数为36。为每个录音提供了37个数字特征。算法的精度达到了0.869.

LSTM和XGB的组合

为了组合分类器，我们将混合应用于这两个模型，它使得平均准确度增加2%。

640?wx_fmt=png

设法将该算法的预测精度提高0.9 ROC-AUC。

结果

我们使用205个文件的样本测试了深度神经网络分类器。其中，177人是中立的，28人是可疑的。DNN必须处理它们中的每一个，并且预测属于哪个组。

170个中性文件被正确识别为中性
7个中性文件被确认为可疑
13个可疑文件被正确识别为可疑文件
15个可疑文件被确定为中立

为了估计真假输出的百分比，我们使用了混淆矩阵，为了更好的视觉清晰度，使用2*2表。

640?wx_fmt=jpeg

检测语音中的特定短语

我们迫切的希望尝试这种方法来识别音频文件中的单词和短语。目标是检测呼叫中心代理在呼叫的前10秒钟内不向客户端介绍自己及其组织的文件。其中使用了200个短语，平均长度为1.5秒，呼叫中心代理介绍自己和中心的情况。

手动标记文件花了我们很多时间，因为遍历每一条记录都要检查所需的短语是否在其中。为了加快速度，使用扩充来增加数据集。我们随机改变了每个文件6次，增加了噪音，改变了频率，改变了音量，得到的数据集包含1500个样本。

结果

使用代理语音的前10秒来训练分类器，因为这是所需短语发音的时间范围。这种类型的每个文件被分成窗口（窗口长度1.5秒，窗口步骤1秒）并由网络处理为输入文件。作为每个文件的输出，在每个选定的时间窗口中发音的概率。

640?wx_fmt=jpeg

我们标记了300多个文件，以确定所需的短语是否在前10秒内发音，这些文件的准确率为87%。

为何使用语音识别软件

自动呼叫评分有助于为呼叫中心座席定义明确的KPI，确定最佳实践并遵循这些KPI，并提高呼叫中心的工作效率。但是，语音识别软件可以应用于更广泛的任务。

下面，您可以找到几个组织如何从语音识别软件中受益的示例：

收集和分析数据以改善语音用户体验
分析通话记录以查找连接和趋势
用他们的声音认出人
检测并识别客户的情绪，以获得更高的客户满意度
深入挖掘出价数据并提高首次呼叫解决率
增加每次通话的收入
降低客户流失率

640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发，帮我点个在看，谢谢↓

架构师小秘圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用深度神经网络进行自动呼叫评分（二）

导言在上一篇文章中，分享了我们在特征提取和语音识别方面的经验。具体来说，我们使用呼叫者diarization和LIUM库在单独的短语中检测语音。本文中将分享如何使用XGB...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。