高通WOS AI开发之 GEN AI开发(一)

本文链接：https://blog.csdn.net/weixin_38498942/article/details/144750292

生成式AI

随着生成式 AI 采用速度创下新纪录，计算需求不断增加，设备端 AI 处理变得比以往任何时候都更加重要。当前，Windows on Snapdragon 可以使用 CPU、GPU 和 NPU 在设备上运行流行的大型语言模型（LLMs）。

在快速发展的人工智能领域，能够高效而有效地部署和推理 LLM 是至关重要的。设备端 AI 处理提供了显著的优势，包括降低延迟、增强隐私和提高能源效率。通过利用 Windows on Snapdragon 的强大能力，开发者可以在其设备上充分发挥 LLM 的潜力。

这种方法不仅加速了 AI 应用程序的性能，还通过减少对基于云的处理需求，确保敏感数据的安全。CPU、GPU 和 NPU 资源的集成允许复杂 AI 任务的无缝和优化执行，使得能够向用户提供实时的智能体验。

在接下来关于 LLM 部署和模型推理的部分中，我们将探索实现生成式 AI 在 Windows on Snapdragon 上成功实施的方法论、最佳实践和工具。

LLM 部署

在设备上部署大型语言模型（LLM）需要多种工具和框架，以支持大型语言模型。关键平台包括 Ollama 和 LM Studio。这些平台提供了针对不同硬件配置（包括 Snapdragon X 系列设备）量身定制的功能，确保最佳性能和兼容性。它们促进了大型语言模型在各种环境中的部署和管理，使得在本地利用生成式 AI 的力量变得更加容易，从而保障数据隐私和安全。Snapdragon X 系列设备因其先进的 AI 能力和高效的处理能力而尤为引人注目，非常适合运行大型语言模型。这些设备经过专门设计，能够处理 LLM 的高强度计算需求，提供无缝的性能和增强的用户体验。

Ollama

Ollama 是一个免费且开源的项目，让您可以在 Snapdragon X 系列设备上本地运行各种开源 LLM。它提供了一个简单的 API，用于创建、运行和管理模型，以及一个可以在多种应用程序中轻松使用的预构建模型库。
在这里插入图片描述

Ollama 是一个多功能工具，旨在简化在各种硬件平台上运行开源 LLM 的过程，包括 Snapdragon X 系列设备。它以用户友好的方式而闻名，使开发者能够轻松开始使用 LLM。

通过访问 ollama.com，开发者可以访问一系列用于 AI 推理的模型。只需一行代码，他们就可以利用 API，使其应用程序能够从专有模型过渡到开源模型，例如：

Meta’s Llama 3.2
Google’s Gemma 2
Microsoft’s Phi 3.5
Alibaba’s Qwen 2.5
IBM’s Granite Code
Mistral
Snowflake’s Arctic Embed

该工具还支持由 Ollama 和其他 AI 社区贡献者提供的自定义模型。随着全球可用的开源模型种类不断增加，在 Snapdragon X 系列设备上使用 Ollama 的开发者现在在选择 LLM 和硬件平台方面享有显著优势。了解更多支持的模型信息，请点击此处。

开始使用

点击此处下载 Ollama for Windows。
下载后，运行 Ollama 应用程序文件。
以管理员模式打开 PowerShell 并运行以下命令。
```
ollama run llama3.2-vision
```

有关如何开始使用的更多详细信息，请访问 Ollama GitHub。有关如何将 Python 项目与 Ollama 集成的说明，请访问以下链接：Ollama Python 库。

LM Studio

LM Studio 是一款桌面应用程序，用于在您的计算机上开发和实验 LLM。

主要功能

运行本地 LLM 的桌面应用程序
熟悉的聊天界面
搜索和下载功能（通过 Hugging Face ??）
可以监听 OpenAI 类似端点的本地服务器
管理本地模型和配置的系统

该多功能应用程序允许用户直接在各种硬件平台（包括 Snapdragon X 系列设备）上运行大型语言模型（LLM），确保数据隐私和安全。
LM Studio 支持流行的 LLM，如 Llama、Mistral 和 Phi，提供用户友好的界面以管理和与这些模型进行交互。它使用户能够轻松从 Hugging Face 等库下载模型，并提供内置的聊天界面以实现无缝交互。
通过 LM Studio，用户可以高效、安全地探索和实现高级 LLM 功能，使其成为在 Snapdragon X 系列设备上工作的开发者和非开发者的良好工具。