AI能把照片唱出来,邀你体验腾讯黑科技

  导读:本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

  2021年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。

  

AI能把照片唱出来!邀你体验腾讯黑科技

  微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来游戏账号买卖平台图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:cocodataset/#captions-leaderboard

  团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值