![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
智能语音
文章平均质量分 88
深蓝学院
深蓝学院(www.shenlanxueyuan.com)是专注于人工智能的在线教育平台,由中科院自动化所毕业博士团队创建。
展开
-
精华文稿|声纹识别可靠评测
引言近年来,声纹识别技术发展迅猛,在一些基准评测中取得了令人鼓舞的性能。然而,基于这些主流技术所搭建的声纹识别系统在实际应用中的表现却难言可靠。从应用方的反馈来看,声纹识别系统在许多应用场景下的鲁棒性并不理想。这种基准评测和应用表现的不一致性问题,极大地困扰了声纹识别的研究者和从业者,也限制了声纹识别技术的大规模推广应用。为了理解和解释这种不一致性问题,本报告将从声纹评测的视角出发,在评测数据(Data)、测试列表(Trial)和评价指标(Metric)三个维度上进行分析,并尝试给出一些可靠的解决方案。原创 2023-03-08 11:33:14 · 529 阅读 · 0 评论 -
声纹识别可靠评测
由模型结果与实际评测结果存在较大的差距出发,提出了Reliable speak recognition概念,希望设计一个可靠的评测方案,能够去解释这个现象。最后落在了三个主题上面,首先是data,构造更具有复杂性的描述真实世界变动性的data。第二个是trial,希望更关注于hard trials。第三个是metric,希望能够更好的、更系统性的去描述系统的性能,然后比较系统的性能,所以,延伸出来C-P map。原创 2023-01-06 12:18:33 · 668 阅读 · 0 评论 -
语音领域,对于入门学生和初入职场者需要具备什么能力?
是专注于人工智能的在线教育平台,已有数万名伙伴在深蓝学院平台学习,很多都来自于国内外知名院校,比如清华、北大等。本文整理的三个问题是老师们对于现在是否有必要学习传统方法以及给工作中的伙伴们的一些建议,文末整理了大家在直播中提问的一些问题,希望大家可以通过老师的分享能够有所启发。(排名不分先后)曾先后在百度、北京猎户星空供职,主要负责各场景下语音识别声学模型优化,语言模型优化,声纹系统搭建等工作。原创 2022-11-09 14:39:58 · 1403 阅读 · 0 评论 -
智能语音领域人才内卷严重?我们应该具备什么样的能力?
一些短视频里面音频内容的产出、直播里面声音的监管、客服的质检,还有外卖、打车里面都有很多的场景,以及现在风口最对的在线教育类的一些公司也都有自己的语音团队去做一些落地,在这些公司里,语音还是真正的赋能了。其实内卷这个词我也是前两天才听说的,至少上个月我大脑里的语音识别系统还无法识别内卷这个词,不知道线上的ASR模型会得到什么样的结果,这也可以从侧面看出,正是因为语言的变化,还有一些场景的多样性,语音技术其实还有很多实际的问题需要解决,真正到了落地的时候,我们还要花很多精力,投入很多时间去把这个事情做好。原创 2022-11-02 17:18:35 · 184 阅读 · 0 评论 -
语音识别到底是怎么一回事?学习门槛真的那么高么?
说起语音识别,大家的第一反应就是那些看起来眼熟却总也搞不清楚的概念和公式,比如MFCC、HMM、GMM、Viterbi图、解码对齐等等,再往下深入,哪个是哪个,具体用途是什么,就都说不清楚了,总觉得那得是业内大牛才能搞懂的。对于机器来说,开始并不知道这两句话对应的具体文本是什么,于是我们使用GMM进行聚类,分成ABCD四类(当然我们从上帝视角知道,ABCD依次对应我,爱,恨,你)。参数定下来以后,收到未知的音频,扔到刚才这个模型里面,算算算,最后就吐出来一个结果“two”,这就是解码。原创 2022-09-28 11:12:45 · 274 阅读 · 0 评论 -
智能语音技术新发展与发展趋势
本文总结于西工大音频语音与语言处理实验室(ASLP@NPU)负责人-谢磊教授在深蓝学院的公开课——智能语音技术的新进展与发展趋势—NPU-ASLP视角。大家好!感谢深蓝学院的邀请!我代表西工大音频语音与语言处理研究组向各位汇报一下我们实验室在智能语音技术方面的一些进展,基于实验室多位同学研究工作的总结。针对人类语音的研究是一门典型的交叉学科,涉及声学、听觉、信号处理、语音语言学、生理学、认知科学、统计学、机器学习等众多领域。语音处理主要针对人类的语音作为研究载体,除此之外,对声音的研究非常广原创 2022-01-04 15:15:46 · 4152 阅读 · 0 评论 -
口音与方言语音识别研究进展
本文总结于2021年10月30日汤志远博士在深蓝学院关于[口音与方言语音识别研究进展]的公开课,更多详细内容可以参见公开课。见文末~汤博士和大家一起分享了关于口音与方言语音识别的研究进展,并介绍了口音或方言语音识别相关的数据、基准和竞赛,以及一些可行的研究方向。口音和方言问题回顾所谓的语音识别就是实现从语音到文本的转换,建模方式从过去常用的DNN-HMM结构转变到最近流行的端对端结构。这些模型的区别体现在建模单元的颗粒度,针对端对端的框架,目前比较流行的结构包括RNN-T、编码器-解码器、注原创 2021-11-10 15:04:20 · 3093 阅读 · 0 评论 -
大咖面对面 | 陈果果博士谈智能语音
智能语音在近年一直是个很火的话题,商业应用也在不断增加,在10月10号的深蓝&大咖面对面活动中,我们邀请到了语音界大佬陈果果博士,针对目前语音领域问题进行分享与探讨。目录嘉宾介绍 直播精华 精选网友提问1.嘉宾介绍陈果果,SEASALT.AI联合创始人,约翰霍普金斯大学博士、清华大学本科师从当前最流行的开源语音识别工具Kaldi之父Daniel Povey,以及美国人类语言技术卓越中心(HLTCOE)和约翰霍普金斯语言语音处理中心(CLSP)的Sanjeev Khudanpur原创 2021-10-15 16:09:42 · 552 阅读 · 0 评论 -
语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇)本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下:文末扫码,免费获取源码链接及PDF版论文。Journal and conference on speechAlignment1.Online and Linear-Time Attention by Enforcing Monotonic AlignmentsCode:https://github.com/craffel/mad2.Fo...原创 2021-04-16 11:24:49 · 2880 阅读 · 0 评论 -
INTERSPEECH2020大会收录了哪些论文?
*转载文章请留言联系作者众所周知,INTERSPEECH论文的入选门槛较高,竞争异常激烈,那今年有哪些论文被大会收录了呢?我们根据语音的几个方向对顶会收录的153篇论文进行了整理汇总,希望可以帮助大家快速获取想要的论文~整理的论文主要分为以下几个语音领域方向:语音合成 语音识别 场景&说话人识别 语音增强 多模&翻译1. 语音合成1.A Cyclical Post-filtering Approach to Mismatch Refinement of N.原创 2020-09-24 11:22:55 · 1730 阅读 · 2 评论 -
语音交互有哪些优势与劣势?
转载自公众号【谈人工智能】,转载请联系授权语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等,其实就是一种最基本的人与人之间的语音交互。为什么VUI这个概念(Voice User Interface)在最近几年又变得的火起来了呢?因为人们发现除了人与人之间可以通过语音来交互之外,已经可以慢慢地对一些智能设备(如手机、智能音箱、车载系统等),通过语音进行交互下达指令或者获得反馈等,所以现在的语音交互的概念已经不仅仅局限于人与人之间了。尤.转载 2020-09-08 11:38:02 · 4103 阅读 · 0 评论 -
近6年语音合成领域都有哪些论文?
声明:转发本文请联系博主,并标明出处语音合成技术近几年都有哪些论文呢?我们整理了近6年的语音合成论文集分享给大家,希望可以为大家在深耕语音合成领域的过程中,提供绵薄助力。论文集按照年份和引用量列出。文中加粗数字代表论文引用量,引用量由少及多排序。2019年1.111-ClariNet Parallel Wave Generation in End-to-End Text-to-Speech2.115-Speech synthesis from neural decoding of s原创 2020-08-28 12:28:19 · 450 阅读 · 1 评论