部署端侧大模型

winstongit

已于 2024-11-23 19:44:33 修改

阅读量1.5k

点赞数 16

分类专栏：移动机器人文章标签：机器人

于 2024-11-23 19:43:45 首次发布

本文链接：https://blog.csdn.net/wanjunyou/article/details/143997619

版权

端侧大模型是当前人工智能领域的热点话题。

一.端侧大模型发展现状

1.论文：《On-Device Language Models: A Comprehensive Review》

链接：https://arxiv.org/abs/2409.00088

简介：该论文全面综述了设备端语言模型的发展，包括高效架构设计、模型压缩技术及硬件加速策略，并通过案例研究展示其实际应用及潜在优势。

2.文章：《万字长文细说端侧大模型进展(综述)》

链接：万字长文细说端侧大模型进展(综述) - 文章 - 开发者社区 - 火山引擎

简介：详细介绍了端侧大模型的最新进展，包括模型架构、压缩技术、硬件加速等方面的内容。

二.部署端侧大模型流程

1.需求分析与模型选择：

明确应用场景和需求，确定所需模型的功能和性能要求。

根据需求选择合适的轻量化模型或预训练模型，如语言模型（MobileBERT、DistilGPT等）、语音模型（如OpenAI Whisper的轻量版）或多功能模型（如Llama 2系列的轻量版）。

2.模型优化：

对选定的模型进行剪枝<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

winstongit

关注关注

16
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MiniCPM-V 2.6：端侧最强多模态大模型探索【本地部署实践】

寻道AI，探索AI无限可能！

08-22

7713

MiniCPM-V 2.6 是由面壁智能推出的一款端侧 AI 多模态模型。它在保持较小参数规模的同时，展现出了强大的多模态处理能力，能够处理图像、视频等多种数据类型，并实现了一系列先进的功能。这款模型的出现，为端侧设备上的人工智能应用提供了新的可能性。

端侧大模型加速部署与未来交互

AI智能涌现深度研究

10-06

1515

端侧大模型加速部署与未来交互近年来，深度学习技术取得了突破性进展，大规模预训练模型（简称“大模型”）在自然语言处理、计算机视觉等领域展现出惊人的能力。然而，大模型通常体积庞大、计算复杂度高，难以直接部署在算力受限的端侧设备上。为了将大模型的能力赋能于更广泛的应用场景，端侧大模型加速部署成为了当前研究的热点。本文将深入探讨端侧大模型加

参与评论您还未登录，请先登录后发表或查看评论

如何部署私有 AI 大模型？（本地 GPU vs 云计算 vs 端侧 AI）

最新发布

晴天彩虹雨的博客

04-01

657

随着 AI 大模型的快速发展，越来越多的企业和个人希望将大模型部署在私有环境中，以确保数据安全、提升推理效率以及降低成本。本文将详细介绍如何在本地 GPU、云计算以及端侧 AI 环境中部署私有 AI 大模型，并给出具体实战操作指南。

从端到端打通模型端侧部署流程（NCNN）

KingsMan666的博客

02-13

5922

深度学习已经在生活的方方面面被应用和重视。随着手机算力的不断提升，以及深度学习的快速发展，特别是小网络模型不断成熟，原本在云端执行的推理预测就可以转移到端上来做。端智能即在端侧部署运行 AI 算法，相比服务端智能，端智能具有低延时、兼顾数据隐私、节省云端资源等优势。目前端智能正逐渐变为趋势，从业界来看，它已经在 AI 摄像、视觉特效等场景发挥了巨大价值。ncnn 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。

前端高薪岗位之大模型端上部署及训练

2401_85378759的博客

08-06

967

2017年，Google 发表一篇划时代的论文《Attention is all you need》，这是一个标志性的事件。基于 Transformer， 2018年OpenAI推出1.1亿参数的GPT，此后谷歌、微软、Facebook等前后相继推出自己的预训练模型。特别是2020年OpenAI推出了1750亿参数的GPT-3，轰动全球，引发了各大顶尖科研机构在大模型研究的竞赛，大模型的参数规模逐渐增加。

AI端侧部署：模型跑起来、跑得快、持续跑

qq_15821487的博客

04-14

1978

应用边缘计算 BML 全功能开发平台技术难点硬件适配难专业，消费，嵌入式不同端侧设备的特点不同框架的模型适配，转换成中间的模型框架细节对齐，参数取整问题算子融合和扩展支持芯片、平台、各种框架跑得快并且降低精度模型性能优化模型压缩模型量化剪枝蒸馏组合性能优化压缩调度，不同的网络结构已经形成一定的机制，网络算子已经数据库化应用的考虑，成本，泛化能力快速迭代数据回流的闭环，人工着重关注难例分析 SDK优化端侧部署优化按需部署

百度飞桨端侧AI部署月，看如何在Jetson硬件上更好地部署AI模型

PaddlePaddle

05-10

868

点击左上方蓝字关注我们AI应用的部署正逐渐从服务器端走向移动终端和边缘端，覆盖了包括安防、交通、医疗、巡检等等多个行业。服务器上的部署，往往需要通过网络连接来传输数据，因而带来了更大的网络...

手机本地部署端侧大模型

Endlessnight7的博客

01-10

919

ChatterUI是一个在github上的开源项目，基于 React Native 构建的简单前端应用，用于管理聊天文件和角色卡片，并与大型语言模型进行交互。我把我正在用的版本直接放在了文章最下面，直接下载到手机安装即可。在cmd中cd到convert_hf_to_gguf.py所在目录，运行以下命令，注意：“E:\Project\model\safetensors\text_1B”是我自己设置的。把刚才转换好的.gguf格式模型传输到手机上，然后打开安装好的软件ChatterUI，导入使用即可。

小米大模型端侧部署落地探索（2024）PPT(34页).pptx

01-08

在计算机视觉的广阔天地中，大语言模型（LLM）正以其独特的魅力，悄然引领着一场技术革命。传统计算机视觉主要聚焦于物体检测、识别与分割等基本问题，而LLM的加入，则为这一领域注入了新的活力。它不仅在图像理解与...

万字长文细说端侧大模型进展(综述)

强化学习曾小健

11-16

1515

大型语言模型（LLMs）的出现彻底改变了自然语言处理（NLP）领域。由于其在边缘设备上的低延迟、数据本地化和个性化用户体验的优势，越来越多的研究关注在资源受限环境中部署LLMs的挑战与解决方案。本文综述了设备端语言模型的发展，包括高效架构设计、模型压缩技术及硬件加速策略，并通过案例研究展示其实际应用及潜在优势。本综述全面阐述了设备上语言模型（LLMs）的最新进展，重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。

留给“端侧大模型”的时间不多了

脑极体

05-31

909

端侧大模型（Edge AI models），也就是只在设备本地（如智能手机、IoT设备、嵌入式系统等）运行的大模型，过去一两年来非常流行。具体表现在，终端设备厂商，如苹果、荣耀、小米、OV等，AI公司如商汤科技，都推出了自研的纯端侧大模型。端侧大模型存在的意义，就是“以小博大”。简单来说，和云侧大模型相比，端侧大模型要在本地部署，所以参数规模都不大，不用担心私密数据在推理时被泄露；不需要网络传输，...

大模型侧工具安装部署实践

qq_44373268的博客

06-12

3629

这里列出的几款也单纯只是作者平常关注到的，所以可能也不全，请各位见谅！文章从起笔写到这里已经过了三天了，这三天也基本把上文提到的大模型侧工具全部体验了一遍，下面说一下主要结论吧。就这三个工具而言，确实也是各有千秋：从功能丰富度和性能优化的角度综合评估，LM Studio明显更胜一筹。从工具本身使用及模型部署效率来看，Ollama的上手速度会更快，使用会更便捷，效率也会更高。从企业级稳定性和高可用。

AI人工智能核心算法原理与代码实例讲解：模型部署

AI天才研究院

10-06

940

AI人工智能核心算法原理与代码实例讲解：模型部署关键词：AI模型部署，深度学习，模型转换，容器化，微服务，模型监控，性能优化 1. 背景介绍随着深度学习技术的快速发展，越来越多的AI模型被开发出来并应用

端侧大模型MoE实战

zenRRan的博客

01-26

774

作者：韩凯V，北京大学 · 智能科学编辑：青稞AI论文地址：https://arxiv.org/abs/2306.14525 代码：https://github.com/huawei-noah/TL;DR什么是大模型？在标准的神经网络中大参数量往往意味着大计算量，同时需要大数据来训练，因而普通的观点大模型离不开三要素：大参数量+大计算量+大数据量。实际中，我们发现，三要素中只有2个是必要的：大参数...

大模型如何部署-LMDeploy

l18817813618的博客

04-17

899

在没有使用Batch Size之前，网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。大模型面临的挑战大计算，大，计算量巨大，根据internLM2技术报告，提供的模型参数数据，以及OpenAI团队提供的计算估算方法，20B的模型每生成一个token，要进行406亿次浮点运算，因此计算，若生成128个token，就要进行5.2万亿次运算。模型部署的概念：软件中将开发完毕的软件投入使用的过程。

探索大模型在端侧应用的新形态

weixin_41888295的博客

01-09

756

因此，需要对大模型进行压缩、剪枝、量化等技术处理，以减小模型的大小和计算复杂度，使其适应端侧设备的性能要求。同时，随着边缘计算、云计算等技术的发展，端侧设备将具备更强大的计算能力和存储空间，为大模型的端侧应用提供了更好的基础条件。然而，这些技术处理会降低大模型的性能和精度，如何平衡大模型的性能和精度是端侧应用面临的一个重要问题。由于端侧设备的电池容量有限，长时间的模型推理会消耗大量的能源，缩短设备的续航时间。然而，大模型的训练和推理需要大量的计算资源和存储空间，这使得大模型在端侧的应用面临诸多挑战。

从端到端打通模型端侧部署流程（MNN）

KingsMan666的博客

04-03

2137

官方文档有疑问一定要先查这里！MNN是一个轻量级的深度神经网络推理引擎，在端侧加载深度神经网络模型进行推理预测。目前，MNN已经在阿里巴巴的手机淘宝、手机天猫、优酷等20多个App中使用，覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。此外，IoT等场景下也有若干应用。相对来讲，目前我们过了两个端侧部署框架NCNN和MNN，开源较早，社区成熟，案例较多，问题容易解决。易用性较强，相对于MNN会更容易上手，很多操作都直接封装到NCNN内部，方便操作。

深入大模型量化技术，大模型端侧落地已Ready？

2401_82452722的博客

05-07

1190

但是GPTQ的作者认为，在一行中以任何固定的顺序进行量化都能实现不错的效果，所以GPTQ为W的每一行都使用同样的顺序进行量化，在保证效果的同时计算量被减少几个数量级，提高了量化效率。尽管苹果和微软等企业不断地尽力提升小型模型的表现，受限于参数规模，这些模型只适用于极为简单的任务，而在体验过如GPT-4等大模型的强大后，许多用户希望能在便捷的移动设备上也可使用大模型的能力。随着模型规模的增加，需求更多的计算资源以及更高效的算法支持，同时也需关注模型的可解释性和透明性，以及其在不同领域的应用能力。

想要转行ai赛道？看完这篇少走三年弯路！

2401_85375186的博客

02-05

2066

最近有朋友说，想转行ai赛道，做大模型之类的工作，不知道有哪些岗位。今天就来聊聊，AI大模型有哪些方向，新人怎么转行大模型赛道，让大家少走弯路，早日在AI领域如鱼得水！其实，在招聘网站上搜搜 “大模型”，看看那些招聘要求，就能大概了解大模型工程师都有哪些方向了。主要分为下面这四类：数据治理方向：大模型数据工程师，主要负责爬虫、数据清洗、ETL、Data Engine、Pipeline 这些工作。简单说，就是要把数据整理得妥妥当当，让模型能 “吃” 得好。平台搭建方向：大模型平台工程师，负责分布式训练、大模型

端侧大模型部署在机器人

01-21

### 端侧大模型部署至机器人设备的方法与最佳实践 #### 选择适合的端侧大模型架构对于资源受限的机器人设备而言，选用轻量化且性能优越的大模型至关重要。MiniCPM-V 2.6作为当前端侧最强大的多模态大模型之一，在...