太强了！能看图写代码的多模态大模型DeepSeek-VL

最新推荐文章于 2024-10-21 15:46:33 发布

学术 FUN

最新推荐文章于 2024-10-21 15:46:33 发布

阅读量729

点赞数 3

文章标签： AIGC AI编程 AI写作

本文链接：https://blog.csdn.net/2201_75431503/article/details/138868604

版权

DeepSeek-VL示意图

在人工智能领域，多模态模型的发展正以惊人的速度突飞猛进。🚀 DeepSeekAI，这家得到幻方量化后盾的创新型企业，近期推出了一系列新的多模态大模型：DeepSeek-VL。这一系列模型包含从13亿至70亿的参数量，目标是极大提升机器对图像和文本的理解，同时也针对商业应用提供支持。

以下是一些实际应用场景：

当询问：“你能帮我用Python代码重新画一下这张图吗?”，模型的表现如何呢？

输入示例图

模型不仅输出了代码，还附带了详细的代码解释。

代码与解释

将这段代码运行一遍，结果一次成功，无任何错误。生成的图片与原图虽有细微差别，但已经非常接近。对于需要绘制图表的论文作者来说，这无疑是一个好消息。

生成图片与原图对比

来看另一个例子，模型能够精确地理解镜中的人物形象。

人物识别示例

当然，DeepSeek-VL的应用远不止于此，还包括但不限于识别LaTeX公式、表格等多种功能。

LaTeX识别示例

学术Fun已经将以上工具封装成一键启动包，只需简单点击即可使用，避免了配置Python环境可能出现的问题。🔗 下载地址（仅限电脑浏览器访问）：🤖太强了！能看图写代码的多模态大模型DeepSeek-VL_学术FUN，在该页面右侧区域点击下载。

请注意，电脑配置需满足以下条件：
- Windows 10/11 64位操作系统
- 12G显存以上的NVIDIA显卡

各位新老朋友，麻烦点个赞👍和在看👀吧！

关注