Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

蚝油菜花

于 2024-12-16 23:15:16 发布

阅读量926

点赞数 20

分类专栏：每日 AI 项目与应用实例文章标签：语言模型人工智能开源自然语言处理计算机视觉 Kimi 月之暗面

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19841021/article/details/144520481

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：k1视觉思考模型支持端到端图像理解和推理思维链展示。
技术：基于预训练和强化学习后训练，优化字符识别能力，表现全球领先。
应用：广泛应用于教育、学术研究、图像识别等领域。

正文

k1视觉思考模型是什么

公众号: 蚝油菜花 - k1 视觉思考模型

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术。该模型能够直接处理图像信息进行思考并得出答案，无需借助外部OCR或视觉模型。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异，超过全球多个标杆模型。

k1视觉思考模型基于预训练和强化学习后训练，优化了字符识别能力，在OCRBench上得到903分的当前最好结果，在MathVista-testmini、MMMU-val和DocVQA基准测试集上分数分别为69.1、66.7和96.9，处于全球领先水平。

k1视觉思考模型的主要功能

端到端图像理解：k1模型能直接处理用户输入的图像信息，进行深入的思考和分析，无需依赖外部的OCR技术或额外的视觉模型。
推理思维链展示：k1模型展示思考过程，即推理思维链（Chain of Thought, CoT），让用户能看到答案，还能看到模型得出答案的逻辑推理过程。
基础科学能力泛化：模型的能力扩展到物理、化学等其他基础科学领域，能理解和解决这些领域的复杂问题。
真实场景适应性：在包含噪声的真实场景下，k1模型相比其他模型有更显著的领先优势。

k1视觉思考模型的技术原理

预训练与强化学习：k1模型通过预训练和强化学习后训练，优化了字符识别能力，在多个基准测试中表现优异。
思维链技术：模型能够展示推理思维链，帮助用户理解模型得出答案的逻辑过程。
多学科能力：k1模型不仅限于数学，还扩展到物理、化学等基础科学领域，具备跨学科能力。

资源

项目官网：https://kimi.com
GitHub 仓库：https://github.com/kimi-ai/k1-visual-thinking
环境配置文档：https://github.com/kimi-ai/k1-visual-thinking/tree/main/docs/prepare_env/install_guide-zh.md
arXiv 技术论文：https://arxiv.org/pdf/2410.06734

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。