文 / Google AI 软件工程师 Piyush Sharma 和研究员 Radu Soricut
来源 | 谷歌开发者 公众号
网络上有数十亿张图像,这有助于大众娱乐,以及向世界展示无数种主题。然而,对于有视觉障碍或由于网速太慢而无法加载图片的人士来说,其中很多视觉信息都无法获取。网站作者通过 Alt-text HTML 手动添加图像字幕,使更多人可以获取这些内容,然后我们可以使用文字转语音系统来展示对图像的自然语言描述。但是,只有很少一部分的网络图像添加了现有人工选编的 Alt-text HTML 字段。此外,虽然自动图像字幕制作有助于解决这一问题,但精准的图像字幕制作仍是一项颇具挑战性的工作,这需要提升计算机视觉和自然语言处理的现有技术水平。
注:Alt-text HTML 链接
https://www.w3schools.com/tags/att_img_alt.asp
文字转语音系统链接
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
自动图像字幕制作链接
https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html