FunASR(A Fundamental End-to-End Speech Recognition Toolkit)是一个基础的语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复(PR)、语言模型(LM)、说话人分离等。项目源地址
1 语音识别(ASR)
语音识别技术(Automatic Speech Recognition, ASR)是一种将人的语音(声学信号)转换为文本信息的技术(微信的语音转文字就是语音识别的典型应用,把我们说的音频信息转换成文字内容)。
1.1 语料库
语料库(Corpus)就是包含拼音与汉字的对应(中文)和音标与单词的对应(英文)的词典(Dictionary),其目的是根据声学模型识别出来的音素&#x