语音识别技术

转载 2007年09月19日 09:54:00

中科院声学所将为奥运会提供语音技术支持 
 
    【http://www.863.org.cn/863_105/news/news_infotech/200708290002.html

     日前,由首信集团(首都信息发展股份有限公司)牵头、中科院声学所参与其核心模块研制的“奥运会多语言服务”系统被北京奥组委正式采用。这标志着声学所在利用自身科研优势、积极为“科技奥运”做贡献方面取得了新的成果。

    从2002年开始,声学所就参与了由科技部和北京市科委组织,北京首信公司承担的科技奥运“奥运综合信息服务关键技术及核心平台”——“863”重大项目的研制工作。这一项目于2006年顺利通过验收,将为290多万名观众、30多万名注册人员以及奥运会期间来京的国内外游客提供奥运赛事和城市相关的个性化的多语言综合信息服务。公众将有望在任何时间、任何地点,以任何方式获取自己需要的奥运信息。

    在该项目中,声学所中科信利语音实验室承担了其中的”嵌入式多语种语音识别技术研究”子课题的研究,研发“嵌入式多语种语音识别引擎”。该引擎是“奥运综合信息服务核心平台”的一个重要模块。该项技术的应用使用户能够通过语音方式方便自然地获取奥运综合服务信息。例如,用户可以通过手持设备(如:手机,PDA等)、信息亭等,方便快捷地查询获取奥运信息,如:赛况,交通,旅游,餐饮等。对于熟悉汉语或英语的使用者,都可以方便使用。

    该课题的研究成果除了在奥运综合信息服务平台中应用之外,还在夏新、商务通等国产手机里面成功应用。

    声学所中科信利语音实验室自成立以来多次赢得了国内语音技术权威性评测的第一名,目前已成为国内在语音识别以及音频信号处理领域规模最大、实力最强的研究机构,开发出具有国际一流水平的语音识别引擎以及多种音频信号处理技术模块,产品涵盖电信级应用、音乐检索、教育市场以及嵌入式终端等多个领域,是目前国内市场上唯一一家拥有自主知识产权、并已开展大规模商业应用的语音技术研发单位,在电信市场的产品占有率已达到国内第一名的好成绩。  (中科院声学研究所 )

国家863计划支持的语音合成技术成果获Blizzard Challenge大赛综合排名第一名 
 【http://www.863.org.cn/863_105/news/news_infotech/200707100001.html
  在刚刚结束的“Blizzard Challenge 2007”国际英文合成大赛上获悉,科大讯飞报送的参赛系统获得了本次大赛全部3项评测指标综合排名第一名的优异成绩。这是既去年科大讯飞在这一赛事上获得全部评测指标第一名后,第二次蝉联这一佳绩。这一技术成果得到了国家863计划的支持。此次夺标,充分体现了科大讯飞不仅在中文语音和语言技术领域独占鳌头,在英文语音合成技术上也已取得了稳固的领先地位。

  Blizzard Challenge国际英文合成比赛是英语语音合成领域最具权威性、广泛性的国际评测比赛。由美国卡耐基-梅隆大学(Carnegie Mellon University)和日本名古屋工业大学(Nagoya Institute of Technology)联合组织发起,旨在建立一个统一的英文语音合成技术的评测平台,加强各语音研究机构之间的交流与沟通,促进语音技术研究的深入发展。

  评测采取公平、公正、公开的原则,各参赛机构在主办方提供的统一英文音库的基础上,采用自己的研究方法合成待测句子,所有合成效果随机打乱后共享在网络上,由包括语音合成专家、美国本土学生和兴趣人士三方面人员联合评分。系统的评价指标包括自然度和可懂度等方面。

  作为国际上规模最大、影响力最大的英文语音合成大赛,历届Blizzard Challenge都成为国际一流的科研单位和一流企业角逐英文语音合成技术桂冠的竞技平台。本届大赛的参赛单位达到了创记录的16家,其中包括CMU (美国卡耐基-梅隆大学)、IBM 研究院、Edinburgh University(英国爱丁堡大学)、ATR(国际电气通信基础技术研究所)、Nitech (日本名古屋工业大学)等语音技术领域的世界顶尖高手。同时,在与上届比赛准备时间相同的条件下,本届大赛的语料库从上届的4000句扩展到了6000句,大大增加了参赛单位系统准备的难度。

  在时间紧、对手强的竞争压力下,科大讯飞凭借扎实的积累和过硬的技术,分别报送了独创的新一代基于概率模型和单元挑选的“波型拼接系统”,以及基于概率模型和合成器的“Trainable TTS系统”。本届大赛以相似度(Sim)、自然度(Mos)、合成句听写错误率(Wer)为三大核心测试项目。经过由每个参赛单位选派的10名语音专家、英国和美国以英语为母语的大学生、以及网上志愿人员组成的评测人员的科学打分,科大讯飞参赛系统获得了全部三大评测指标综合排名第一名的好成绩。

  在国家863等计划支持下,经过“十五”期间的不懈努力,科大讯飞语音合成技术取得重要突破,达到了让市场接受的地步,完全可以满足社会各行业的应用要求,一个新兴的中文语音高科技产业由此诞生。

语音识别的技术原理是什么?

简要给大家介绍一下语音怎么变文字的吧。 首先说一下作为输入的时域波形。我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件,比如Windows PCM文...
  • u012426662
  • u012426662
  • 2014年11月20日 21:23
  • 1735

语音识别技术学习系列(一)——入门

从这一篇开始,陆续学习语音识别技术,由浅入深。     这一篇是入门,主要学习的是语音识别技术的大致步骤,以及现在的几种主流方法。     下图是语音识别技术的系统框图:     主要包括...
  • puqutogether
  • puqutogether
  • 2015年03月15日 19:56
  • 3446

2015年语音识别文献阅读报告

2015年语音识别文献阅读报告 @sprt 摘要     本文回顾了语音识别技术从开创至今的发展历程,总结了2015年国际上在内容语音识别领域所取得的最新成果和面临的主要问题,并重点关注了深度学...
  • u014437511
  • u014437511
  • 2015年11月12日 19:23
  • 2230

从声学模型算法总结 2016 年语音识别的重大进步

从声学模型算法总结 2016 年语音识别的重大进步
  • charleslei
  • charleslei
  • 2017年02月27日 16:57
  • 4561

灵云语音识别

源码GitHub在线语音识别SDK下载灵云SDK下载SDK集成下载SDK以后,将jar和so导入工程权限 ...
  • q4878802
  • q4878802
  • 2016年08月15日 16:31
  • 1880

语音识别关键技术公开,人机交互这么做就对了!

转载自: http://www.edn-cn.com/news/article/201608241715 对于识别来说,首先要保障的是远场环境下的识别率,除了前面提到的麦克风阵列解决了前端声...
  • sunfoot001
  • sunfoot001
  • 2016年08月27日 20:50
  • 5026

ASR自动语音识别技术

自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计...
  • voice_dsw
  • voice_dsw
  • 2016年07月24日 22:48
  • 3677

详解语音处理检测技术中的热点——端点检测、降噪和压缩

作为一种人机交互的手段,语音的端点检测在解放人类双手方面意义重大。同时,工作环境存在着各种各样的背景噪声,这些噪声会严重降低语音的质量从而影响语音应用的效果,比如会降低识别率。未经压缩的语音数据,网络...
  • ffmpeg4976
  • ffmpeg4976
  • 2016年08月28日 23:34
  • 3063

百度语音识别技术负责人李先刚:如何利用Deep CNN大幅提升识别准确率?

 百度语音识别技术负责人李先刚:如何利用Deep CNN大幅提升识别准确率? 机器之心mp 2016-11-04 14:24:34 技术 百度 阅读(440) 评论(0) ...
  • starzhou
  • starzhou
  • 2016年11月24日 13:55
  • 3227

语音识别总结

1.试用了google 在线语音识别,长语音没有成功,思路试用`GitHub `__2.试用科大讯飞sdk.成功,但是背景噪音大后,识别基本不行。其中参数ent=sms-en16k识别英文。 #in...
  • northeastsqure
  • northeastsqure
  • 2015年01月05日 17:29
  • 883
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:语音识别技术
举报原因:
原因补充:

(最多只允许输入30个字)