AI看图说话,MiniGPT-4已经开源

MiniGPT-4 是一个人工智能工具,​最大的飞跃是增加了识图能力,​并且回答准确性也得到显著提高。​它可以识别图片并回答关于图片的问题,​例如图片内容、​颜色等等。

​此外,​它还可以进行图像对话,​即通过图片和文本进行对话。

​MiniGPT-4 在多个专业和学术基准测试中展现出令人印象深刻的表现,​有时甚至达到了人类水平。​MiniGPT-4 是开源且免费的,​支持中文。

​它可以根据给定的图像创作故事和诗歌,​提供解决图像中显示的问题的解决方案,​根据食品照片教用户如何烹饪等。

​它是一个华人团队开发的模型,​可以使用高级大型语言模型增强视觉语言理解。​MiniGPT-4 的训练过程包括两个阶段,​第一个阶段使用大约5百万对齐的图像文本对进行传统的预训练,​第二个阶段使用高级大型语言模型进行微调。​

MiniGPT-4是一个高效的视觉-语言模型,​由视觉编码器、​单个线性投影层和先进的Vicuna大型语言模型组成。​该模型仅需要训练线性层以将视觉特征与Vicuna对齐,​使用约500万对图像和文本进行训练。​MiniGPT-4的架构基于预训练的ViTQ-Former,​可提高视觉-语言理解的整体可用性。

开源地址在github上。

更多的工具,可以参考 AiBard123

MiniGPT-4 上的例子有很多,比如这个是根据图片生成诗歌。
在这里插入图片描述
真的看上去挺美的。

MiniGPT-4 还能在线免费体验,地址在https://c9cd51f7cae3c9fec1.gradio.live/,或者在github的官网上点demo进去。

在这里插入图片描述
给了一张千与千寻的宣传图片,我们问MiniGPT-4 这是哪部电影,MiniGPT-4 答得非常的完美。

说吧说吧!最新的大模型语言GPT4是不是很🔥?未来只要应用基于这些大模型,图像、声音、视频等领域的效果应该都不会太差!别说我没告诉你,这个项目还证明了大语言模型在图像领域很✅!下一步嘛,有很多想搭顺风车的开发者都拔腿疯狂加入大模型阵营,把GPT4的能力扩展至音频、视频等领域,让我们再看到更多有趣、🤯的AI应用程序吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值