概念字幕:图像字幕制作的新数据集和挑战

概念字幕是一个包含约330万图像/字幕对的新数据集,旨在促进自动图像字幕制作技术的发展。通过从网络自动提取和过滤图像字幕,该数据集具有较高的准确性和多样性。研究显示,使用概念字幕训练的模型在生成一般概念的字幕上表现优于使用传统数据集训练的模型。谷歌已发布概念字幕挑战,鼓励机器学习社区参与并提升图像字幕制作的水平。
摘要由CSDN通过智能技术生成

文 / Google AI 软件工程师 Piyush Sharma 和研究员 Radu Soricut

来源 | 谷歌开发者 公众号

网络上有数十亿张图像,这有助于大众娱乐,以及向世界展示无数种主题。然而,对于有视觉障碍或由于网速太慢而无法加载图片的人士来说,其中很多视觉信息都无法获取。网站作者通过 Alt-text HTML 手动添加图像字幕,使更多人可以获取这些内容,然后我们可以使用文字转语音系统来展示对图像的自然语言描述。但是,只有很少一部分的网络图像添加了现有人工选编的 Alt-text HTML 字段。此外,虽然自动图像字幕制作有助于解决这一问题,但精准的图像字幕制作仍是一项颇具挑战性的工作,这需要提升计算机视觉和自然语言处理的现有技术水平。
注:Alt-text HTML 链接
https://www.w3schools.com/tags/att_img_alt.asp
文字转语音系统链接
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
自动图像字幕制作链接
https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值