语音识别技术

最新推荐文章于 2023-01-04 14:44:31 发布

phdbrianlee

最新推荐文章于 2023-01-04 14:44:31 发布

阅读量1.3k

点赞数

分类专栏： NT 文章标签：嵌入式平台引擎语言电信 tts

NT 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

中科院声学所将为奥运会提供语音技术支持

【http://www.863.org.cn/863_105/news/news_infotech/200708290002.html】

日前，由首信集团(首都信息发展股份有限公司)牵头、中科院声学所参与其核心模块研制的“奥运会多语言服务”系统被北京奥组委正式采用。这标志着声学所在利用自身科研优势、积极为“科技奥运”做贡献方面取得了新的成果。

从2002年开始，声学所就参与了由科技部和北京市科委组织，北京首信公司承担的科技奥运“奥运综合信息服务关键技术及核心平台”——“863”重大项目的研制工作。这一项目于2006年顺利通过验收，将为290多万名观众、30多万名注册人员以及奥运会期间来京的国内外游客提供奥运赛事和城市相关的个性化的多语言综合信息服务。公众将有望在任何时间、任何地点，以任何方式获取自己需要的奥运信息。

在该项目中，声学所中科信利语音实验室承担了其中的”嵌入式多语种语音识别技术研究”子课题的研究，研发“嵌入式多语种语音识别引擎”。该引擎是“奥运综合信息服务核心平台”的一个重要模块。该项技术的应用使用户能够通过语音方式方便自然地获取奥运综合服务信息。例如，用户可以通过手持设备(如：手机，PDA等)、信息亭等，方便快捷地查询获取奥运信息，如：赛况，交通，旅游，餐饮等。对于熟悉汉语或英语的使用者，都可以方便使用。

该课题的研究成果除了在奥运综合信息服务平台中应用之外，还在夏新、商务通等国产手机里面成功应用。

声学所中科信利语音实验室自成立以来多次赢得了国内语音技术权威性评测的第一名，目前已成为国内在语音识别以及音频信号处理领域规模最大、实力最强的研究机构，开发出具有国际一流水平的语音识别引擎以及多种音频信号处理技术模块，产品涵盖电信级应用、音乐检索、教育市场以及嵌入式终端等多个领域，是目前国内市场上唯一一家拥有自主知识产权、并已开展大规模商业应用的语音技术研发单位，在电信市场的产品占有率已达到国内第一名的好成绩。 (中科院声学研究所 )

国家863计划支持的语音合成技术成果获Blizzard Challenge大赛综合排名第一名
【http://www.863.org.cn/863_105/news/news_infotech/200707100001.html】
　　在刚刚结束的“Blizzard Challenge 2007”国际英文合成大赛上获悉，科大讯飞报送的参赛系统获得了本次大赛全部3项评测指标综合排名第一名的优异成绩。这是既去年科大讯飞在这一赛事上获得全部评测指标第一名后，第二次蝉联这一佳绩。这一技术成果得到了国家863计划的支持。此次夺标，充分体现了科大讯飞不仅在中文语音和语言技术领域独占鳌头，在英文语音合成技术上也已取得了稳固的领先地位。

　　Blizzard Challenge国际英文合成比赛是英语语音合成领域最具权威性、广泛性的国际评测比赛。由美国卡耐基－梅隆大学(Carnegie Mellon University)和日本名古屋工业大学(Nagoya Institute of Technology)联合组织发起，旨在建立一个统一的英文语音合成技术的评测平台，加强各语音研究机构之间的交流与沟通，促进语音技术研究的深入发展。

　　评测采取公平、公正、公开的原则，各参赛机构在主办方提供的统一英文音库的基础上，采用自己的研究方法合成待测句子，所有合成效果随机打乱后共享在网络上，由包括语音合成专家、美国本土学生和兴趣人士三方面人员联合评分。系统的评价指标包括自然度和可懂度等方面。

　　作为国际上规模最大、影响力最大的英文语音合成大赛，历届Blizzard Challenge都成为国际一流的科研单位和一流企业角逐英文语音合成技术桂冠的竞技平台。本届大赛的参赛单位达到了创记录的16家，其中包括CMU （美国卡耐基－梅隆大学）、IBM 研究院、Edinburgh University(英国爱丁堡大学)、ATR（国际电气通信基础技术研究所）、Nitech (日本名古屋工业大学)等语音技术领域的世界顶尖高手。同时，在与上届比赛准备时间相同的条件下，本届大赛的语料库从上届的4000句扩展到了6000句，大大增加了参赛单位系统准备的难度。

　　在时间紧、对手强的竞争压力下，科大讯飞凭借扎实的积累和过硬的技术，分别报送了独创的新一代基于概率模型和单元挑选的“波型拼接系统”，以及基于概率模型和合成器的“Trainable TTS系统”。本届大赛以相似度（Sim）、自然度（Mos）、合成句听写错误率（Wer）为三大核心测试项目。经过由每个参赛单位选派的10名语音专家、英国和美国以英语为母语的大学生、以及网上志愿人员组成的评测人员的科学打分，科大讯飞参赛系统获得了全部三大评测指标综合排名第一名的好成绩。

　　在国家863等计划支持下，经过“十五”期间的不懈努力，科大讯飞语音合成技术取得重要突破，达到了让市场接受的地步，完全可以满足社会各行业的应用要求，一个新兴的中文语音高科技产业由此诞生。