论文阅读:《 Lip Reading Sentences in the Wild》

论文:https://arxiv.org/abs/1611.05358
原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html

唇语翻译

将视频处理为以嘴唇为中心的图片序列,给或不给语音,预测正在讲的话。

hankcs.com 2017-06-30 下午3.16.19.png

这些数据可能来自新闻直播:

hankcs.com 2017-06-30 下午3.16.41.png

动画演示:

这里唇语和语音的识别、卡拉OK效果式的对齐,都是模型自动完成的。

架构

hankcs.com 2017-06-30 下午3.40.00.png

视觉和听觉两个模块或者混合交火或者单独使用,每次输出一个字母。

视觉

取嘴唇时序上的sliding window,先喂给CNN,再喂给LSTM,生成一个output vector$s$:

hankcs.com 2017-06-30 下午3.42.20.png

听觉

类似地,取音频上的窗口分片:

hankcs.com 2017-06-30 下午3.44.03.png

Attention与Spell

将上述两个LSTM输出的output states送入一个带两个attention拓展的LSTM:

hankcs.com 2017-06-30 下午3.48.34.png

Curriculum Learning

hankcs.com 2017-06-30 下午3.52.37.png

通常训练seq2seq模型时喂进去的是完整的句子,但Curriculum Learning的手法是,一次只喂几个单词,逐步增长。这样可以加快收敛速度,降低过拟合。

Scheduled Sampling

hankcs.com 2017-06-30 下午5.03.54.png

通常训练递归模型的时候,使用的是前一个时刻的“标准答案”的one-hot向量,而这里根据前一个时刻的预测结果采样,让训练和测试统一起来。

数据集

hankcs.com 2017-06-30 下午5.06.20.png

来自BBC新闻的五千个小时的视频,对齐字幕,做了嘴唇位置等预处理。

结果

hankcs.com 2017-06-30 下午5.11.40.png

有趣之处在于,他们将模型效果与专业做唇语翻译的公司做了对比,发现比专业人士还要准,而且错误率低了20个百分点。(竟然还有公司专门做这个)

在同时输入语音和唇语的情况下,错误可以做到更低。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值