概念字幕：图像字幕制作的新数据集和挑战

最新推荐文章于 2024-04-17 10:10:26 发布

Google_Developer

最新推荐文章于 2024-04-17 10:10:26 发布

阅读量542

点赞数

本文链接：https://blog.csdn.net/Google_Developer/article/details/82747028

版权

概念字幕是一个包含约330万图像/字幕对的新数据集，旨在促进自动图像字幕制作技术的发展。通过从网络自动提取和过滤图像字幕，该数据集具有较高的准确性和多样性。研究显示，使用概念字幕训练的模型在生成一般概念的字幕上表现优于使用传统数据集训练的模型。谷歌已发布概念字幕挑战，鼓励机器学习社区参与并提升图像字幕制作的水平。

摘要由CSDN通过智能技术生成

文 / Google AI 软件工程师 Piyush Sharma 和研究员 Radu Soricut

来源 | 谷歌开发者公众号

网络上有数十亿张图像，这有助于大众娱乐，以及向世界展示无数种主题。然而，对于有视觉障碍或由于网速太慢而无法加载图片的人士来说，其中很多视觉信息都无法获取。网站作者通过 Alt-text HTML 手动添加图像字幕，使更多人可以获取这些内容，然后我们可以使用文字转语音系统来展示对图像的自然语言描述。但是，只有很少一部分的网络图像添加了现有人工选编的 Alt-text HTML 字段。此外，虽然自动图像字幕制作有助于解决这一问题，但精准的图像字幕制作仍是一项颇具挑战性的工作，这需要提升计算机视觉和自然语言处理的现有技术水平。
注：Alt-text HTML 链接
https://www.w3schools.com/tags/att_img_alt.asp
文字转语音系统链接
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
自动图像字幕制作链接
https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html