用python直接调用asr技术_语音识别技术ASR（一）基本概念

最新推荐文章于 2024-07-02 16:21:39 发布

Artemis Lee

最新推荐文章于 2024-07-02 16:21:39 发布

阅读量1.3k

点赞数

文章标签：用python直接调用asr技术

本文链接：https://blog.csdn.net/weixin_36247564/article/details/113554375

版权

本文介绍了语音识别的基本过程，探讨了Token的种类，如Phoneme、Grapheme、Word、Morpheme和Bytes，并分析了它们的优缺点。研究显示，Grapheme是最常见的Token选择。此外，文章还讨论了ASR问题的不同输出视角以及所需的数据量。

摘要由CSDN通过智能技术生成

注：本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程

一、语音识别的基本过程

语音识别的输入一般是时域的语音信号，数学上用一系列向量表示(length T, dimension d)，输出是文本，用一系列token表示(length N, V different tokens)，一般来说，在ASR问题中，输入信号的长度T会大于token的长度N

二、Token的选择

Token可以理解为语音和文字之间的一种桥梁纽带，我们听到的语音可以通过AD转化变为数字信号存储，进而以矩阵的形式存储于计算机中，那日常生活中的文字也需要一种转换被计算机所存储使用，ASR问题中，目前主流的token有以下几种：Phoneme ：以声音的基本元素作为Token，不同的单词由不同的音素组成，通过识别输入语音中存在哪些音素进而组合成识别出的文字，这里就存在一个很重要的映射关系表Lexicon，所以这种Token的缺点也很明显，即需要语言学的知识才可以得到Lexicon，而且不同的文献会给出不同的Lexicon

2. Grapheme：以文字书写的最小单位作为token优点：(1)不需要语言学知识，是Lexicon free；(2)即使遇到了训练过程中没有出现的Token，也可以期待一下会有什么样的结果(手动滑稽)

缺点：(1)使用起来比较有挑战性，很多发音相同但对应Token确是不同，需要比较强的上下文信息，对模型的学习提出了更高的要求，

最低0.47元/天解锁文章

Artemis Lee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用python直接调用asr技术_语音识别技术ASR（一）基本概念

注：本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程一、语音识别的基本过程语音识别的输入一般是时域的语音信号，数学上用一系列向量表示(length T, dimension d)，输出是文本，用一系列token表示(length N, V different tokens)，一般来说，在ASR问题中，输入信号的长度T会...
复制链接

扫一扫