在 Android 设备上运行自己的 AI 聊天机器人

你是否厌倦了每次与 AI 助手互动时都不得不将个人数据交给大型客机公司?好消息是,你可能在你的Android 智能手机或平板电脑上直接运行强大的语言模型,这一切都始于llama.cpp

在这个教程中,我将指导你如何在 Android 设备上设置llama.cpp,让您能够亲身体验本地 AI 处理的自由和可定制性。不再依赖于远程服务器,也不必担心您的数据会被泄露。是时候重新掌控局面,释放现在机器学习技术的全部潜力了。

在 Android 设备上运行大型语言模型的优势

在深入技术细节之前,让我们先探讨一下在 Android 设备上本地运行 AI 模型的原因。

首先,这可以让你完全掌控你的数据。当你与基于云的 AI 助手互动时,你的对话、查询甚至个人信息都会被发送到远程服务器,你对齐如何使用甚至出售给第三方公司几乎没有任何可见性和控制权。

使用llama.cpp,一切都发生在你的设备上。你与 AI 的互动从未离开你的智能手机或平板电脑,确保了你的隐私安全。此外,你还可以在无法访问云端 AI 服务的地方(如某些工作场所)使用这些本地的 AI 模型。

但好处还不止于此。通过运行本地人工智能,你还可以对其进行自定义。你可以亲自挑选适合你的特定需求和兴趣的人工智能模型,而不是局限于大型科技公司提供的预构建模型。或者,如果你拥有合适的硬件并且对 AI 模型经验丰富,你甚至可以自己微调模型以创建真正个性化的 AI 体验。

在 Android 上开始使用llama.cpp

好了,让我们开始在你的 Android 设备上设置llama.cpp吧。

前提条件

在开始之前,请确保你的 Android 设备满足以下要求:

  • Android 8.0或更高版本

  • 至少 6-8GB 内存以获得最佳性能

  • 至少 4 核的现代骁龙或联发科 CPU

  • 足够的存储空间用于应用程序和语言模型文件通常为 (1-8GB)

第1步:安装 F-Droid 和 Termux首先,你需要在 Android 设备上安装 F-Droid 应用程序存储库。F-Droid 是开源软件的重要来源,我们将在这里获得 Termux 终端模拟器。

前往F-Droid 网站https://f-droid.org/并按照说明安装该应用。完成后,打开 F-Droid 并搜索 Termux 并安装最新版本。

ce1e9765f0a68c239793ae04d5e9e362.jpeg

21926c0893ce6ac0a210d8e2a29e2936.jpeg

请不要使用 Google Play 商店安装 Termux,因为那里的版本已经过时了。

设置Termux 存储库(可选)如果你将 termux 存储库服务器更改为你所在的国家/地区的服务器,则在安装软件包时可以获得更快的下载速度:

termux-change-repo

如果你需要帮助,请查看Termux Wiki站点。

第2步:设置llama.cpp环境安装 Termux 之后,是时候启动llama.cpp项目了。从打开 Termux 应用程序开始,安装一下软件包,我们后面会用到它们来编译llama.cpp:

pkg i clang wget git cmake

98339e4f1d21a1fd6ae610ad3e961629.jpeg

cc7d00bae9d771b5ab85c5f158ef08d6.jpeg

现在克隆llama.cpp Git仓库到您的手机:

git clone https://github.com/ggerganov/llama.cpp.git

但是由于github 目前不支持用户名密码下载,所以我换了一种方式,通过电脑把文件下载下来后,放入手机端

先查看一下路径:

pwd

0273204fe801fe736b9cd577110186e1.jpeg

// 把文件拷贝到手机内存 /storage/emulated/0/
cd /storage/emulated/0/
// ls 找到 llama.cpp 文件夹
// Termux 的路径 /data/data/com.termux/files/home/
// 将llama.cpp 文件拷贝到 Termux 里面
mv llama.cpp /data/data/com.termux/files/home

e21f0676bb5f7035f0ec465bd98c81a1.jpeg

d07370ac92b2df91e870454b9c883d52.jpeg

接下来,我们需要设置 Android NDK(Native Development Kit)来编译llama.cpp项目。访问Termux-NDK 存储库https://github.com/lzhiyong/termux-ndk/releases并下载最新的 NDK 版本。解压 ZIP 文件,然后在 Termux 中设置 NDK路径:

// 把文件拷贝到手机内存 /storage/emulated/0/
cd /storage/emulated/0/
// ls 找到 android-ndk-r26b-aarch64.zip 文件夹
// Termux 的路径 /data/data/com.termux/files/home/
// 将android-ndk-r26b-aarch64.zip 文件拷贝到 Termux 里面
mv android-ndk-r26b-aarch64.zip /data/data/com.termux/files/home


unzip android-ndk-r26b-aarch64.zip
export NDK=~/android-ndk-r26b

5525bebc02585e6d50eda6058b60fde9.jpeg

06410e4b8dbdd62c72514ef24a3f3432.jpeg

第3.1步:使用 Android NDK 编译llama.cpp

NDK 设置好后,你现在可以为你的 Android 设备编译llama.cpp了。有两种选择:使用或不使用 GPU 加速。我建议从 非 GPU 版本开始,因为它的设置稍微简单一些。

cmake -DCMAKE_TOOLCHAIN_FILE=$NDK/build/cmake/android.toolchain.cmake -DANDROID_ABI=arm64-v8a -DANDROID_PLATFORM=android-26 -DCMAKE_C_FLAGS=-march=native ..
make

如果一切顺利,您现在应该在项目的 build 文件夹中拥有可用的llama.cpp的二进制文件了。你现在可以继续下载模型文件(第 4 步)

第3.2步:使用 GPU 加速构建llama.cpp(可选)

使用 OpenCL 和 CLBlast 支持构建llama.cpp可以提高整体性能,但需要一些额外的步骤:

下载必要的软件包:

apt install ocl-icd opencl-headers opencl-clhpp clinfo libopenblas
下载 CLBlast,编译并将clblast.h复制到llama.cpp文件夹:
git clone https://github.com/CNugteren/CLBlast.git
cd CLBlast
cmake .
cmake --build . --config Release
mkdir install
cmake --install . --prefix ~/CLBlast/install
cp libclblast.so* $PREFIX/lib
cp ./include/clblast.h ../llama.cpp
这里面 github 没办法下载,还得和之前 ndk 和 llama.cpp 文件下载导入手机的方式一致

将 OpenBLAS 文件复制到llama.cpp:

cp /data/data/com.termux/files/usr/include/openblas/cblas.h .
cp /data/data/com.termux/files/usr/include/openblas/openblas_config.h .
将CLBlast 构建llama.cpp:
cd ~/llama.cpp
mkdir build
cd build
cmake -DLLAMA_CLBLAST=ON -DCMAKE_TOOLCHAIN_FILE=$NDK/build/cmake/android.toolchain.cmake -DANDROID_ABI=arm64-v8a -DANDROID_PLATFORM=android-24 -DCMAKE_C_FLAGS=-march=native -DCLBlast_DIR=~/CLBlast/install/lib/cmake/CLBlast ..
cd ..
make

~/.bashrc下天还 LD_LIBRARY_PATH(直接在无力 GPU 上运行程序):

echo "export LD_LIBRARY_PATH=/vendor/lib64:$LD_LIBRARY_PATH:$PREFIX" >> ~/.bashrc
检查 GPU 是否可用于 OpenCL:
clinfo -l
如果一切正常,例如对于高通骁龙 Soc,他将显示:
Platform #0: QUALCOMM Snapdragon(TM)
 `-- Device #0: QUALCOMM Adreno(TM)
第4步:下载并复制语言模型

最后,你需要下载一个兼容的语言模型,并将其复制到~/llama.cpp/models目录。前往Hugging Face

https://huggingface.co/

并搜索适合您设备可用 RAM 的 GGUF 格式模型。我建议从TinyLlama-1.1B https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v0.3-GGUF/resolve/main/tinyllama-1.1b-chat-v0.3.Q4_K_M.gguf?download=true

开始。

下载模型文件后,使用

termux-setup-storage

命令授予访问你设备共享存储的权限,然后将模型文件移动到llama.cpp模型目录:

mv ~/storage/downloads/model_name.gguf ~/llama.cpp/models
第5步:运行llama.cpp

在设置好llama.cpp环境并准备好语言模型之后,你就可以开始于你自己的本地 AI 助手互动了。我建议你运行llama.cpp Web服务器:

cd llama.cpp
./server -m models/[YourModelName].gguf -t [#threads]

#threads替换为你Android 设备的核心数减1,否则它可能会变得无响应。

然后通过在移动浏览器中打开http://localhost:8080来访问 AI 聊天机器人。

或者你也可以直接在 Termux 中运行llama.cpp聊天:

./main -m models/[YourModelName].gguf --color -inst

结论

性能将根据您的设备的硬件性能而有所不同,即使是中端手机,只要选择足够适合你设备内存的较小模型,也应该能够合理地运行llama.cpp。高端设备当然可以充分利用模型的功能。

作者:谋爱先谋生爱人先爱己
链接:https://juejin.cn/post/7356772031898255410

关注我获取更多知识或者投稿

3b7d82879a0fbfc00751b1528c0e2cb3.jpeg

87bc0a6a61c2f94cdf014b36a836fd2d.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值