如何在Android上运行Llama 3.2

AI程序猿人

于 2024-09-26 14:33:02 发布

阅读量583

点赞数 6

文章标签： android llama 自然语言处理大语言模型人工智能 LLM llama3.2

本文链接：https://blog.csdn.net/python1222_/article/details/142555063

版权

引言

随着Llama 3.2的发布，Meta在将强大的语言模型带到边缘和移动设备方面取得了重大进展。Llama 3.2包含了专为智能手机和平板电脑高效运行而设计的轻量级模型（1B和3B参数）。本教程将指导您通过MLC LLM库对Llama 3.2模型进行量化、转换和部署。

您将学习到

如何设置模型转换和部署的环境。
如何量化和转换Llama 3.2模型，以便在移动设备上兼容。
如何编译和构建Android应用程序，以便在设备上本地运行模型。

前提条件

一个Google Colab帐户（最好是Colab Pro或更高，以获取GPU资源）。
一台具有足够硬件能力的Android设备。
基本的Python和命令行工具知识。
访问Llama 3.2模型权重（可在Hugging Face上获取）。

了解Llama 3.2

Llama 3.2是Meta最新的开源语言模型版本，经过优化以适应边缘和移动设备。轻量级模型（1B和3B参数）支持高达128K令牌的上下文长度，并能够执行诸如摘要、指令跟随和重写等任务，均可在您的设备上本地运行。

关键特性：

轻量级模型： 专为设备部署设计的1B和3B参数模型。
高性能： 经过优化，以提高效率而不牺牲能力。
隐私友好： 本地运行模型确保您的数据保留在设备上。

设置环境

我们将使用Google Colab进行初步步骤，以利用其GPU资源。

步骤1：克隆存储库

首先，克隆包含必要脚本和笔记本的存储库。

!git clone https://github.com/YourUsername/Llama3.2-on-Mobile.git

步骤2：安装依赖项

安装MLC LLM库，并确保NumPy版本兼容。

!pip install --pre --force-reinstall mlc-ai-nightly-cu122 mlc-llm-nightly-cu122 -f https://mlc.ai/wheels
!pip install numpy==1.23.5

步骤3：导入库

import mlc_llm
import torch
from huggingface_hub import snapshot_download

步骤4：验证GPU可用性

确保Colab使用的是GPU。

import torch
torch.cuda.is_available()

如果返回True，则说明可以使用。

量化和转换模型

步骤1：下载Llama 3.2模型权重

登录Hugging Face账户并下载Llama 3.2模型。

在这里插入图片描述

步骤2：配置模型名称和量化类型

设置模型名称和所需的量化。
在这里插入图片描述

步骤3：转换和量化模型

使用MLC LLM工具对模型权重进行量化和转换。

!python -m mlc_llm convert_weight /content/$MODEL_NAME/ --quantization $QUANTIZATION -o /content/$MODEL_NAME-$QUANTIZATION-android/

步骤4：生成配置文件

创建必要的令牌文件和配置。

在这里插入图片描述

步骤5：为Android编译模型

将模型编译为Android兼容格式。

!python -m mlc_llm compile /content/$MODEL_NAME-$QUANTIZATION-android/mlc-chat-config.json \
    --device android -o /content/$MODEL_NAME-$QUANTIZATION-android/$MODEL_NAME-$QUANTIZATION-android.tar

步骤6：将模型上传到Hugging Face

这将使您更容易直接在Android设备上下载模型权重。

在这里插入图片描述

为Android编译模型

步骤1：设置Linux环境（可选）

如果您使用的是Windows，建议使用Linux环境或云虚拟机（如Google Cloud Platform）以避免兼容性问题。

步骤2：安装Rust

Rust是交叉编译标记器所需的。

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

安装后重启终端。

步骤3：安装Android NDK和CMake

打开Android Studio，通过SDK管理器安装NDK和CMake。

步骤4：安装其他依赖项

pip install --pre -U -f https://mlc.ai/wheels mlc-llm-nightly mlc-ai-nightly
sudo apt-get install cmake

步骤5：克隆必要的存储库

git clone https://github.com/mlc-ai/mlc-llm.git
git clone https://github.com/YourUsername/Llama3.2-on-Mobile.git

步骤6：下载量化模型权重

导航到mlc-llm/android/MLCChat/dist/prebuilt目录，克隆包含量化模型的Hugging Face存储库。

cd mlc-llm/android/MLCChat/dist/prebuilt
git clone https://huggingface.co/YourUsername/Llama-3.2-3B-q4f16_1-android.git

步骤7：复制编译后的模型

将之前生成的.tar文件复制到lib目录。

在这里插入图片描述

步骤8：配置`mlc-package-config.json`

编辑mlc-package-config.json文件以包含您的模型详细信息。
在这里插入图片描述

步骤9：设置环境变量

export ANDROID_NDK=/path/to/your/ndk
export TVM_NDK_CC=$ANDROID_NDK/toolchains/llvm/prebuilt/linux-x86_64/bin/aarch64-linux-android24-clang
export TVM_HOME=/path/to/mlc-llm/3rdparty/tvm
export JAVA_HOME=/path/to/android-studio/jbr
export MLC_LLM_HOME=/path/to/mlc-llm

步骤10：生成Android构建文件

cd mlc-llm/android/MLCChat
python3 -m mlc_llm package

设置

Android环境

步骤1：打开Android项目

在Android Studio中打开位于Llama3.2-on-Mobile/mobile-llama3/MobileLlama3的Android项目。

步骤2：更新`mlc-app-config.json`

在src/main/assets目录中，配置mlc-app-config.json文件。

在这里插入图片描述

步骤3：构建Android应用

在Android Studio中点击Build > Make Project，这可能需要一些时间。

构建和运行Android应用

步骤1：连接Android设备

确保您的设备启用了USB调试。

步骤2：运行应用

在Android Studio中点击Run > Run 'app'。

步骤3：与设备上的Llama 3.2互动

应用安装后，您可以开始在Android设备上直接与Llama 3.2模型互动。

注意：在移动设备上运行大型语言模型需要相当大的计算资源。性能可能会根据设备的硬件能力而有所不同。

结论

恭喜您！您已成功在Android设备上部署Llama 3.2模型。这使得离线推理成为可能，并确保数据在您的设备上保持私密。欢迎尝试不同的模型和配置，以优化性能。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AI程序猿人

关注

6
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何在Android上运行Llama 3.2

引言

您将学习到

前提条件

目录

了解Llama 3.2

设置环境

步骤1：克隆存储库

步骤2：安装依赖项

步骤3：导入库

步骤4：验证GPU可用性

量化和转换模型

步骤1：下载Llama 3.2模型权重

步骤2：配置模型名称和量化类型

步骤3：转换和量化模型

步骤4：生成配置文件

步骤5：为Android编译模型

步骤6：将模型上传到Hugging Face

为Android编译模型

步骤1：设置Linux环境（可选）

步骤2：安装Rust

步骤3：安装Android NDK和CMake

步骤4：安装其他依赖项

步骤5：克隆必要的存储库

步骤6：下载量化模型权重

步骤7：复制编译后的模型

步骤8：配置mlc-package-config.json

步骤9：设置环境变量

步骤10：生成Android构建文件

设置

步骤1：打开Android项目

步骤2：更新mlc-app-config.json

步骤3：构建Android应用

构建和运行Android应用

步骤1：连接Android设备

步骤2：运行应用

步骤3：与设备上的Llama 3.2互动

结论

如何学习AI大模型？

一、全套AGI大模型学习路线

二、640套AI大模型报告合集

三、AI大模型经典PDF籍

四、AI大模型商业化落地方案

步骤8：配置`mlc-package-config.json`

步骤2：更新`mlc-app-config.json`