从顶级会议Interspeech 2019看语音领域大家都在弄个啥嘞

最新推荐文章于 2025-04-17 17:06:00 发布

frams

最新推荐文章于 2025-04-17 17:06:00 发布

阅读量6.3k

点赞数 6

分类专栏：技术交流文章标签： Interspeech 语音识别语音增强语音合成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/frams/article/details/101149715

版权

技术交流专栏收录该内容

5 篇文章

订阅专栏

Interspeech 2019 总共有2100多份提交，1800多份进入评审阶段，接收的不到1000份(？没看到官方统计结果，我

是从论文集里统计出来的)。投稿单位主要仍然是科研机，但是占比只有60%，商业机构都占35%了。商业机构占比

多也很正常，因为这个会议就是他们赞助的。最大的赞助商是Amazon，国内最大的赞助商是滴滴，属于钻石赞助商

，掏了20000欧元，(今天才知道滴滴语音领域挺厉害，它不仅仅是个打车的app，也是孤陋寡闻了，关于这次会议

的新闻稿有些就是"滴滴语音"发的)。阿里也赞助了，属于黄金赞助商。

会议共五天，9月15到9月19号。16号开始一天一个keynote，16号讲语音合成，17号讲人机互动，18号讲语音产生

机理的，19号讲自然语言接口。从keynote也可以看出当前热点。

大会论文集已经放出，https://www.isca-speech.org/archive/Interspeech_2019。论文集分类分得很详细，大体可分为：语音识别、语音增强、语音合成、说话人识别和自然语言理解等。

语音识别仍然是大热门，还是语音领域里的一哥。语音识别需要克服噪声、远场带来的困难，当然这两个哪个都没有被搞定。如果它们被搞定了，而且你还是做语音的，你一定会在新闻上看到，不用去读文献。语音识别现在是Attention相关算法的天下了，几乎所有的ASR文章都涉及到了attention。

语音增强现在也是什么技术都往上使，自编码器、GAN、spatial filter等等，无监督学习貌似要成主流，另外语音增强还有个多通道语音增强专题。

语音合成主要还是研究高音质语音生成算法，自从wavenet出来以后，我就没太关注了，现在技术也越来越成熟了，不光能说话，还能唱歌了。

说话人识别本人不涉及，不表。

开会当然少不了大牛，深度学习三巨头之一Bengio灌了一篇，俞栋一篇，Rainer Martin两篇，汪德亮4篇。汪德亮现在作为大象声科的技术总监，还能不停在学术界耕耘，也是不容易。他的学生貌似有些直接在大象声科实习了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。