Caption Anything：细粒度可控的图像描述，试试解读清明上河图！

最新推荐文章于 2024-06-13 23:06:25 发布

机器学习与AI生成创作

最新推荐文章于 2024-06-13 23:06:25 发布

阅读量370

点赞数

文章标签：人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247499869&idx=3&sn=36f3573e9805cf117cc263d7be465a3f&chksm=fe2a62e6c95debf0ad11f05f9a7a621e4c7e1ac59c9835ed7f45781c9ba7db4c33806f51fa2d&scene=126&sessionid=0

版权

https://zhuanlan.zhihu.com/p/622314514
作者：yougeii 编辑：CVer

Github（已开源）:

https:// https://github.com/ttengwang/Caption-Anything

Hugging Face Demo:

https://huggingface.co/spaces/TencentARC/Caption-Anything

清明上河图demo

近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT实现, 通过视觉控制(鼠标点击)获取特定区域的object, 并以多样化的语言风格描述出来.

传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且object交互特别复杂的图像, 一个简单的句子或非常长的段落, 对用户阅读很不友好. Caption Anything想看哪里即点击哪里, 根据用户需求定制化地关注局部区域, 进行细节描述及后续推理任务. 同时具有速度优势.

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, Caption Anything提供了视觉控制和语言控制.

Caption Anything支持视觉控制和语言控制

用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用chatGPT输出物体对应的wiki知识, 同时支持chatGPT进行对话. 代码同时支持Linux和Windows平台.

用户界面

Github（已开源）:

https:// https://github.com/ttengwang/Caption-Anything

猜您喜欢：

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

点击 一顿午饭外卖，成为CV视觉的前沿弄潮儿！，领取优惠券，加入 AI生成创作与计算机视觉 知识星球！

机器学习与AI生成创作

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Caption Anything：细粒度可控的图像描述，试试解读清明上河图！

https://zhuanlan.zhihu.com/p/622314514作者：yougeii 编辑：CVerGithub（已开源）:https:// https://github.com/ttengwang/Caption-AnythingHugging Face Demo:https://huggingface.co/spaces/TencentARC/Caption-Anything清...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。