Ollama 版本更新技术详解

最新推荐文章于 2025-03-05 11:04:43 发布

Bj陈默

最新推荐文章于 2025-03-05 11:04:43 发布

阅读量754

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/chinansa/article/details/144455064

版权

以下是对Ollama 0.5.0-0.5.1版本的技术详解：

新模型支持

Llama 3.3 70B：Ollama 0.5.0版本开始支持最先进的Llama 3.3 70B模型，该模型与Llama 3.1 405B性能接近，为用户提供了更强大的语言生成能力，可应用于更复杂、更具挑战性的自然语言处理任务.

Snowflake Arctic Embed 2：这是Snowflake的前沿嵌入模型，Arctic Embed 2.0增加了多语言支持，且不会牺牲英语性能或可扩展性，能够更好地满足不同语言环境下的文本嵌入需求，为多语言文本处理和分析提供了更有力的支持.

结构化输出

Ollama 0.5.0版本现在支持结构化输出，用户可以将模型的输出限制为json架构定义的特定格式。通过在API请求的`format`参数中提供json架构对象，即可获得符合特定格式要求的输出结果，这对于需要将模型输出与特定数据结构进行集成或处理的应用场景非常有用.

相应地，Ollama的Python和JavaScript库也已更新，以支持结构化输出以及Ollama的OpenAI兼容API端点。在Python库中，用户可以将架构作为json对象或使用Pydantic的`model_json_schema()`方法进行序列化后传递给`format`参数；在JavaScript库中，则可以将架构作为json对象传递给`format`参数或使用Zod的`zodToJsonSchema()`方法进行序列化.

缓存量化改进

0.5.0版本引入了将KV缓存量化设置为4位（q4_0）、8位（q8_0）或16位（f16）的新标志。这一改进降低了对较长上下文窗口的VRAM要求，使得在处理较长文本序列时能够更有效地利用硬件资源，减少内存不足错误的发生.

未来，Flash Attention将在可用的情况下默认启用，并基于每个模型提供KV缓存量化，进一步优化模型的性能和资源利用效率.

错误修复

0.5.0版本：修复了导入模型词汇文件时出错的问题，提高了模型加载的稳定性和可靠性，确保用户能够顺利地使用各种模型.

0.5.1版本：修复了在指定“format”时Ollama的API会生成JSON输出的问题，以及将“--format json”传递给ollama run会导致错误的问题，增强了API的稳定性和一致性，使得用户在使用结构化输出功能时能够获得更准确、更可靠的结果.

CLI命令增强

添加了“/? ”快捷帮助命令，用户可以通过输入该命令快速查看可用的命令及其说明，方便用户在使用Ollama CLI时快速查找和了解相关命令的功能和用法，提高了开发和调试的效率.

增加了使用“/save”命令保存当前会话或模型以及使用“/load”命令加载会话或模型的功能。用户可以使用“/save”命令保存对话内容以及通过“/set parameter”、“/set system”等命令进行的模型调整，然后在需要时使用“/load”命令快速恢复之前的会话或模型状态，无需重新设置参数和输入历史对话内容，大大提高了用户体验和工作效率.