VisualGLM简介 - 多模态理解

量化交易曾小健(金融号)

已于 2023-06-08 07:52:48 修改

阅读量697

点赞数

文章标签：人工智能

于 2023-05-19 05:23:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39970492/article/details/130758514

版权

GPT-4 样例，展现出令人印象深刻的多模态理解能力，但是目前还没有能够理解图像的中文开源对话模型。

近期，智谱AI 和清华大学 KEG 实验室开源了基于 ChatGLM-6B 的多模态对话模型 VisualGLM-6B，供大家使用。

Github 链接：github.com/THUDM/Visua…

Huggingface 链接：huggingface.co/THUDM/visua…

VisualGLM-6B 可以进行图像的描述及相关知识的问答：

当前该开源方案由于数据量、模型参数量、是否用户意图对齐等限制，方案存在的一些局限性。

图像描述事实性/模型幻觉问题。在生成图像长描述的时候，距离图像较远时，语言模型的将占主导，有一定可能根据上下文生成并不存在于图像的内容。
属性错配问题。在多物体的场景中，部分物体的某些属性，经常被错误安插到其他物体上。
分辨率问题。本项目使用了224*224的分辨率，也是视觉模型中最为常用的尺寸；然而为了进行更细粒度的理解，更大的分辨率和计算量是必要的。

目前VisulaGLM未开放对应的技术论文，但可参考microsoft的多模态技术方案[2]，该方案也是支持text和image两个模态数据的输入，输出回答文本内容。

量化交易曾小健(金融号)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VisualGLM简介 - 多模态理解

目前VisulaGLM未开放对应的技术论文，但可参考microsoft的多模态技术方案。，该方案也是支持text和image两个模态数据的输入，输出回答文本内容。ChatGLM-6B 的多模态对话模型 VisualGLM-近期，智谱AI 和清华大学 KEG 实验室开源了基于。，但是目前还没有能够理解图像的中文开源对话模型。GPT-4 样例，展现出令人印象深刻的。当前该开源方案由于数据量、模型参数量、等限制，方案存在的一些局限性。224*224的分辨率。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。