从顶级会议Interspeech 2019看语音领域大家都在弄个啥嘞

Interspeech 2019 总共有2100多份提交,1800多份进入评审阶段,接收的不到1000份(?没看到官方统计结果,我

是从论文集里统计出来的)。投稿单位主要仍然是科研机,但是占比只有60%, 商业机构都占35%了。商业机构占比

多也很正常,因为这个会议就是他们赞助的。最大的赞助商是Amazon,国内最大的赞助商是滴滴,属于钻石赞助商

,掏了20000欧元,(今天才知道滴滴语音领域挺厉害,它不仅仅是个打车的app,也是孤陋寡闻了,关于这次会议

的新闻稿有些就是"滴滴语音"发的)。阿里也赞助了,属于黄金赞助商。


会议共五天,9月15到9月19号。16号开始一天一个keynote,16号讲语音合成,17号讲人机互动,18号讲语音产生

机理的,19号讲自然语言接口。从keynote也可以看出当前热点。


大会论文集已经放出,https://www.isca-speech.org/archive/Interspeech_2019。论文集分类分得很详细,大体可分为:语音识别、语音增强、语音合成、说话人识别和自然语言理解等。

语音识别仍然是大热门,还是语音领域里的一哥。语音识别需要克服噪声、远场带来的困难,当然这两个哪个都没有被搞定。如果它们被搞定了,而且你还是做语音的,你一定会在新闻上看到,不用去读文献。语音识别现在是Attention相关算法的天下了,几乎所有的ASR文章都涉及到了attention。

语音增强现在也是什么技术都往上使,自编码器、GAN、spatial filter等等,无监督学习貌似要成主流,另外语音增强还有个多通道语音增强专题。

语音合成主要还是研究高音质语音生成算法,自从wavenet出来以后,我就没太关注了,现在技术也越来越成熟了,不光能说话,还能唱歌了。

说话人识别本人不涉及,不表。

开会当然少不了大牛,深度学习三巨头之一Bengio灌了一篇,俞栋一篇,Rainer Martin两篇,汪德亮4篇。汪德亮现在作为大象声科的技术总监,还能不停在学术界耕耘,也是不容易。他的学生貌似有些直接在大象声科实习了。

 

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值