月之暗面Kimi多模态图片理解模型 API 发布

最新推荐文章于 2025-03-06 10:10:19 发布

吴脑的键客

最新推荐文章于 2025-03-06 10:10:19 发布

阅读量768

点赞数 8

分类专栏：机器人技术文章标签：人工智能 AIGC 计算机视觉机器人

本文链接：https://blog.csdn.net/weixin_41446370/article/details/145172536

版权

机器人技术专栏收录该内容

54 篇文章

订阅专栏

2025年1月15日，北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布，该模型完善了moonshot-v1模型系列的多模态能力，助力Kimi更好地理解世界。

Vision模型具备强大的图像识别能力，能准确识别图像中的复杂细节和细微差别，无论是食物还是动物，都能区分出相似但不相同的对象。例如，面对16张相似的人眼较难区分的蓝莓松饼和吉娃娃图片，Vision模型能精确地区分和识别。

Vision模型还拥有国内领先的高级图像识别能力，在OCR文字识别和图像理解场景中表现优异，比普通文件扫描和OCR识别软件更加准确，能识别收据单、快递单等潦草的手写内容。

在这里插入图片描述
Vision视觉模型支持多轮对话、流式输出、工具调用、JSON Mode、Partial Mode等特性，但暂不支持联网搜索，不支持创建带有图片内容的Context Cache，但支持使用已创建成功的Cache调用Vision模型，不支持URL格式的图片，目前仅支持使用base64编码的图片内容。