深度对话语音行业专家李秀林:十年坚守初心,加入创业公司

本文讲述了语音合成专家李秀林的从业经历,他见证了语音合成技术从拼接合成到深度学习的发展,并在百度与滴滴等公司推动技术创新。目前,李秀林作为标贝科技的联合创始人,致力于将公司从数据服务转型为提供语音合成整体解决方案,打造“声音超市”,服务B端用户,赋能更多企业。
摘要由CSDN通过智能技术生成

[ 导读 ] 李秀林向亿欧介绍道,标贝科技已经从数据服务型公司升级为语音合成技术整体解决方案的公司,其业务从原本的音频、图像、文本等数据加工处理,拓展至语音合成技术领域。


如果你是网游重度患者,那你一定听过“你好,恭喜走出新手村,尽情享受你的修仙之旅吧”;如果你在驾驶时开启了手机地图导航,那你一定听过“前方路口左转,请驶入辅路”;还有银行排队叫号时“请6666号到第6号窗口办理业务”。我们都知道,这些声音的来源一定不是真人,而是机器。那么冷冰冰的机器是如何发声的呢?这就涉及到“语音合成”技术。

语音合成技术从业趋势,独乐乐不如众乐乐

与语音识别、语义理解这两项技术相比,语音合成似乎稍显低调。为帮助从业者更深入的了解这项技术的就业与创业趋势,亿欧日前采访了一位具有10余年从业经验的语音合成领域老兵——李秀林。

在10余年语音相关技术研发以及学术研究期间,中科院博士李秀林申请了一系列语音技术的相关专利,包括文本处理、韵律预测、声学模型、拼接系统、模型自适应、神经网络、情感合成等多个方面。

对于这位老兵,亿欧最为钦佩的地方并不在于其技术积累与专业能力,而是他不论经历行业高峰还是低谷,都能始终坚持初心。李秀林回忆,自其从业以来,语音合成行业的发展可总结为3个阶段:

第一阶段是在2006年以前,彼时语音合成的主要方法是采用拼接合成技术,用聚类的方法进行数据分类,或者通过决策树去做目标参数的预测,从而选择合适的声学片段进行拼接。

第二阶段是在2006年-2012年间,基于HMM的统计参数模型逐渐成为语音合成技术的热点,也由此产生了一波研究热潮。然而这种方法虽然具有模型小,对硬件要求低的优点,但声音的质量较差。该方法主要应用在硬件能力较差或者网络不稳定的场景,比如导航系统。

到2010年,由于当时整个语音领域无论是在需求端还是技术端均无法取得重大的突破,尤其是语音识别的性能无法达到预期效果&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值