语音识别中强制对齐_【涨姿势】口语评分——英语学习中的机器学习算法

最新推荐文章于 2024-05-08 12:39:13 发布

靖然是你

最新推荐文章于 2024-05-08 12:39:13 发布

阅读量1k

点赞数

文章标签：语音识别中强制对齐

本文链接：https://blog.csdn.net/weixin_36335279/article/details/112927001

版权

有道口语大师技术团队介绍了口语评分原理，主要采用与普适标准对比的评分方法，通过音标级别的数据进行训练。强制对齐技术用于将句子划分成音标数据，结合Viterbi解码算法确定每个音素的起止位置，实现高精度的音标和单词评分。此外，语音识别步骤确保文本和音频匹配，提高评分准确性。

摘要由CSDN通过智能技术生成

芥末堆注：本篇是#

中国有数以亿计的英语学习者，移动互联网已经成为这个产业新的爆发点。口语学习app为学习者提供了一个更加轻松环境和低成本的投入。一方面鼓励用户“大声说出来"，一方面为他们提供有效的评分反馈，指出发音中的具体错误，帮助他们进行有针对性的训练。

有道口语大师就是这样一款产品。这个号称最有趣的英语学习APP ，由曾出品过有道词典、有道翻译官的团队倾力打造。上线一个多月，便吸引了超过100万的用户。除了进阶式口语训练体系，游戏化设计萌宠元素受到好评之外，产品如何实现用机器学习的方法来进行口语自动评分，也是用户很关心的问题。

下面有道口语大师技术团队将对口语评分原理进行简单的介绍，以解大家困惑。

评价标准是什么？

所谓口语评分，具体来说就是给定某个句子，让用户进行发音，然后按照一定的标准进行评分。通常来说有两大类评分方法：第一，和某个特定的发音进行比较，和给定发音越相近得分越高；第二，用普适的标准来评价用户发音，即只要用户读的是正确的、地道的，就可以得到高分。我们认为第二种方法是更为准确合理，因为同样的一句话不可能只有单一的正确的读法，而给定的“标准”发音更无法保证是最标准的。发音存在夸张或连读/省略，这就使基于相似度的评分，在很多场景下都存在偏差。所以我们的介绍会围绕第二种评分方法展开，解释其中运用的技术。

从音标到单词

图1 有道口语大师跟读题示例

目前比较流行的口语学习类软件，都会给用户提供单词级别的评分反馈，但事实上，口语评分的内