使用深度神经网络进行自动呼叫评分(二)

640?wx_fmt=jpeg

导言


在上一篇文章中,分享了我们在特征提取和语音识别方面的经验。具体来说,我们使用呼叫者diarization和LIUM库在单独的短语中检测语音。本文中将分享如何使用XGBoost以及LSTM和XGB的组合检测整个音频文件中的语音。

检测整个文件中的语音


如果文件至少包含一个违反规则的短语,将会标记为可疑文件。使用该方法标记2,500个文件。


为了提取特征,是用哪个相同的原理和相同的ANN架构,唯一的区别是,扩展了网络架构以适应特征空间的新维度。


通过最佳神经网络参数,实现了85%的分类精度。

640?wx_fmt=png

XGBoost特征提取


XGBoost模型需要为每个文件提供固定的功能。为了满足功能需求,创建了几个信号和统计信息(参数)。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

使用了以下统计数据:

  1. 信号的平均值

  2. 信号前10秒的平均值

  3. 信号最后3秒的平均值

  4. 信号局部最大值的平均值

  5. 信号前10秒的局部最大值的平均值

  6. 信号最后3秒的局部最大值的平均值


计算每个信号的所有统计数据,出记录长度外,功能总数为36。为每个录音提供了37个数字特征。算法的精度达到了0.869.

LSTM和XGB的组合


为了组合分类器,我们将混合应用于这两个模型,它使得平均准确度增加2%。

640?wx_fmt=png


设法将该算法的预测精度提高0.9 ROC-AUC。

结果


我们使用205个文件的样本测试了深度神经网络分类器。其中,177人是中立的,28人是可疑的。DNN必须处理它们中的每一个,并且预测属于哪个组。


  • 170个中性文件被正确识别为中性

  • 7个中性文件被确认为可疑

  • 13个可疑文件被正确识别为可疑文件

  • 15个可疑文件被确定为中立


为了估计真假输出的百分比,我们使用了混淆矩阵,为了更好的视觉清晰度,使用2*2表。

640?wx_fmt=jpeg

检测语音中的特定短语



我们迫切的希望尝试这种方法来识别音频文件中的单词和短语。目标是检测呼叫中心代理在呼叫的前10秒钟内不向客户端介绍自己及其组织的文件。其中使用了200个短语,平均长度为1.5秒,呼叫中心代理介绍自己和中心的情况。


手动标记文件花了我们很多时间,因为遍历每一条记录都要检查所需的短语是否在其中。为了加快速度,使用扩充来增加数据集。我们随机改变了每个文件6次,增加了噪音,改变了频率,改变了音量,得到的数据集包含1500个样本。

结果


使用代理语音的前10秒来训练分类器,因为这是所需短语发音的时间范围。这种类型的每个文件被分成窗口(窗口长度1.5秒,窗口步骤1秒)并由网络处理为输入文件。作为每个文件的输出,在每个选定的时间窗口中发音的概率。

640?wx_fmt=jpeg

我们标记了300多个文件,以确定所需的短语是否在前10秒内发音,这些文件的准确率为87%。

为何使用语音识别软件


自动呼叫评分有助于为呼叫中心座席定义明确的KPI,确定最佳实践并遵循这些KPI,并提高呼叫中心的工作效率。但是,语音识别软件可以应用于更广泛的任务。


下面,您可以找到几个组织如何从语音识别软件中受益的示例:

  • 收集和分析数据以改善语音用户体验

  • 分析通话记录以查找连接和趋势

  • 用他们的声音认出人

  • 检测并识别客户的情绪,以获得更高的客户满意度

  • 深入挖掘出价数据并提高首次呼叫解决率

  • 增加每次通话的收入

  • 降低客户流失率


640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值