论文阅读：《 Lip Reading Sentences in the Wild》

最新推荐文章于 2024-06-25 09:40:27 发布

小爷毛毛（卓寿杰）

最新推荐文章于 2024-06-25 09:40:27 发布

阅读量3.3k

点赞数 2

分类专栏：深度学习基础/原理大语言模型/对话问答/自然语言处理计算机视觉

深度学习基础/原理同时被 3 个专栏收录

142 篇文章 12 订阅

订阅专栏

大语言模型/对话问答/自然语言处理

88 篇文章 7 订阅

订阅专栏

计算机视觉

32 篇文章 1 订阅

订阅专栏

论文：https://arxiv.org/abs/1611.05358
原文：http://www.hankcs.com/nlp/cs224n-lip-reading.html

唇语翻译

将视频处理为以嘴唇为中心的图片序列，给或不给语音，预测正在讲的话。

hankcs.com 2017-06-30 下午3.16.19.png

这些数据可能来自新闻直播：

hankcs.com 2017-06-30 下午3.16.41.png

动画演示：

这里唇语和语音的识别、卡拉OK效果式的对齐，都是模型自动完成的。

架构

hankcs.com 2017-06-30 下午3.40.00.png

视觉和听觉两个模块或者混合交火或者单独使用，每次输出一个字母。

视觉

取嘴唇时序上的sliding window，先喂给CNN，再喂给LSTM，生成一个output vector$s$：

hankcs.com 2017-06-30 下午3.42.20.png

听觉

类似地，取音频上的窗口分片：

hankcs.com 2017-06-30 下午3.44.03.png

Attention与Spell

将上述两个LSTM输出的output states送入一个带两个attention拓展的LSTM：

hankcs.com 2017-06-30 下午3.48.34.png

Curriculum Learning

hankcs.com 2017-06-30 下午3.52.37.png

通常训练seq2seq模型时喂进去的是完整的句子，但Curriculum Learning的手法是，一次只喂几个单词，逐步增长。这样可以加快收敛速度，降低过拟合。

Scheduled Sampling

hankcs.com 2017-06-30 下午5.03.54.png

通常训练递归模型的时候，使用的是前一个时刻的“标准答案”的one-hot向量，而这里根据前一个时刻的预测结果采样，让训练和测试统一起来。

数据集

hankcs.com 2017-06-30 下午5.06.20.png

来自BBC新闻的五千个小时的视频，对齐字幕，做了嘴唇位置等预处理。

结果

hankcs.com 2017-06-30 下午5.11.40.png

有趣之处在于，他们将模型效果与专业做唇语翻译的公司做了对比，发现比专业人士还要准，而且错误率低了20个百分点。（竟然还有公司专门做这个）

在同时输入语音和唇语的情况下，错误可以做到更低。

小爷毛毛（卓寿杰）

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小爷毛毛（卓寿杰）

CSDN认证博客专家 CSDN认证企业博客

码龄11年

人工智能领域优质创作者

283: 原创

6296: 周排名

2949: 总排名

97万+: 访问

: 等级

9973: 积分

6551: 粉丝

645: 获赞

155: 评论

1472: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读：《基于深度学习的线上农产品销量预测模型研究》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LLM指令微调实践与分析
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
解读：全民K歌直播推荐算法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
pyspark做Item2vec
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
【Spark Mllib】K-均值聚类——电影类型
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。