![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
音频
文章平均质量分 74
liefyuan
一招鲜吃变天!
展开
-
【语音识别】自然语言处理 NLP--NLU和NLG
自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。自然语言处理的工作原理是先接收到通过人类使用演变而来的自然语言;再转译成自然语言,这通常是通过基于概率的算法进行转变的;最后再分析自然语言并输出最终结果。NLP就是利用人类交流所使用的自然语言与机器进行交互通讯的技术,对自然语言各方面(包括话语、句法结构、单词、语意解释等)的分析,理解出用户想表达的意思,从而得到机器可读并理解的语言。原创 2024-02-26 14:38:30 · 689 阅读 · 0 评论 -
【语音识别】落地实现--离线智能语音助手
所有的源码:链接:https://pan.baidu.com/s/14667bZyc9xovUyUH_zf-CQ?pwd=lief提取码:lief–来自百度网盘超级会员V6的分享。原创 2024-02-26 14:37:20 · 1788 阅读 · 4 评论 -
【语音基础】AI领域在语音识别上的使用
无论是编码过程中的特征提取规则,还是解码过程中的声学模型与语言模型,都有很多不同的种类。声学模型通过处理编码得到的向量,将相邻的帧组合起来变成音素(如拼音中的声母韵母等),再组合起来变成单个的单词或汉字;对于“端到端”的识别方式,声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字。帧与帧之间会有一定的重叠。对于得到的每一帧,可以通过某种规则(如依照人耳听声特点提出的MFCC规则),提取信号中的特征,将其变成一个多维向量。原创 2024-02-26 14:35:41 · 425 阅读 · 0 评论 -
【语音基础】语音相关的基础
强制对齐是语音识别的一种特殊的、简化了的情况,由于它的简单性,强制对齐通常具有较高的准确率(音素级别准确率可达90%,单词级别可达95%以上)。端到端模型首先减轻了费力的组装设计,利用一个神经网络代替了传统模型中复杂的建模过程, 其次更容易对各种(例如音色或者语种)属性或者高级特征(例如语音中的情感)进行特征的捕获与提取。按声电转换原理:电动式(动圈式、铝带式),电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。按声场作用力:压强式、压差式、组合式、线列式等。原创 2024-01-23 10:44:34 · 435 阅读 · 0 评论 -
【语音基础】梅尔频谱
梅尔倒频谱(Mel-Frequency Spectrum, MFC)是一个可用来代表短期音讯的频谱, 其原理根基于以非线性的梅尔刻度(mel scale)表示的对数频谱(spectrum)及其线性余弦转换(linear cosine transform)之上。原创 2024-01-23 10:32:58 · 1806 阅读 · 0 评论