多模态大模型如何改变我们的生活？_多模态大模型应用-CSDN博客

本文链接：https://blog.csdn.net/qq_46094651/article/details/141367734

2022年，OpenAI 的ChatGPT 3.5 横空出世，搅动了整个AI 行业。Transformer、LLM、VLM、大模型、多模态等概念蜂拥而至。让我们不禁感慨这世界技术更新之快。

【什么是大模型？】

    “大模型”通常指具有数十亿到数千亿个参数的神经网络模型，需要大量的计算资源和数据来进行训练和运行。通过硬件计算能力的提升，以及训练数据量的增加，使得大模型可以完成更复杂的任务，为人们提供更多的服务。

以ChatGPT为例，ChatGPT到底能用来做什么？我们看看ChatGPT自己怎么说？

【大模型的主要应用市场有哪些呢？】

大模型其实可以用在各行各业，手机、PC、服务器和安防都是有很大的需求的。

AI 手机能做什么？

    去年8月，华为HarmonyOS 4系统接入盘古大模型，随后小米训练出轻量级语言大模型，参数规模为13亿和60亿两种。同年11月，vivoX100系列首次搭载vivo蓝心大模型。到2024年，AI手机百花齐放，OPPO Find X7系列、荣耀Magic 6系列、vivo的X100列等都支持了大模型。从高端旗舰到中端机型，各家都开始布局AI手机。

    Gartner 对生成式 AI 智能手机的定义是指配备硬件和软件功能的智能手机，能够在智能手机上无缝集成和高效执行 GenAI 驱动的功能和应用程序。这些智能手机能够本地运行基础或微调人工智能模型，生成新的衍生内容、策略、设计和方法版本。这方面的例子包括谷歌的 Gemini Nano、百度的文心 ERNIE 和 OpenAI 的 GPT-4。

    根据Canalys，满足以下三大标准即可被确认为AI手机：

1）大模型方面，智能手机能够在端侧运行LLM（如谷歌的Gemini、三星的Gauss等）和其他生成式AI模型（如Stable Diffusion等）；

2）硬件方面，智能手机的SoC芯片中包含能够加速AI运行的专用单元（如高通的Hexagon、联发科的APU和谷歌的TPU等）；

3）运行效果方面，端侧LLM的推理能力高于成人的阅读速度即10token/s（基于LLaMA-27B,或同等水平），同时端侧AI生成图像的时间要小于2秒（基于StableDiffusionv1.5，20步，512*512分辨率，或同等水平）

    在OPPO联合调研机构IDC共同发布的《AI手机白皮书》中，OPPO分享了其定义的AI手机的四大能力特征：高效利用计算资源、数据感知更敏锐、强大的自学习能力以及丰富的创作能力：

而Apple对AI 手机的定义如下：

综上所述，可以看到，大家认为的AI手机如下：

SoC具有专用的AI单元。这个高通、联发科的高端SoC都有专用的AI 单元，用来运行相关的AI模型。所有的模型都是在本地运行，而非通过网络服务器运行。
能够在端侧运行LLM。对于AI 手机，可具备的功能会有：
语音助手：如Siri、Google Assistant等虚拟助手能够理解自然语言指令，执行任务如设置提醒、搜索信息等。
电话助手：比如拨打电话、对通话内容进行文本输出或内容总结
会议助手：比如对会议内容进行文本输出，内容总结
健康助手：对使用者进行活动跟踪和健康检测
翻译助手：实时进行多国语言互译
写作助手：键盘预测、自动纠错、文档关联、作诗写词、思维导图、活动方案、社交圈文案等
知识问答：超大书库数据，对论文、网页等做总结文档
教育助手：可以作为虚拟教育助手，协助教师管理课程和学生。
能够运行生成式AI模型
图片创作，比如通过文字生图、通过一个图片+文字生图、对图片进行二创、对图片进行AI PS、图像风格转换等
不仅能运行以上模型外，还需要2秒内甚至更短的时间就能生成图片等功能。
可以智能分析、智能操作等
语义搜索：输入一段话，轻松在手机上找到相关的图片、文档、歌曲或便签。
图文分析：比如对照片整理分类整理，形成动态相册等
智能摄影：
场景识别和优化：智能手机可以识别拍摄场景（如人物、风景、食物等），并自动调整相机设置以获得最佳效果。
夜间模式：AI算法可以在低光环境中减少噪点，增强细节，改善夜间拍摄效果。

从去年开始，各大手机公司都发布了AI 手机，
华为Pura 70：‌内置自研的盘古大模型，‌具备AI隔空操作和智感支付功能‌
三星Galaxy S24：‌融合本地和云端AI体验，‌为用户带来通话实时翻译、‌即圈即搜、‌转录助手和笔记助手、‌浏览助手以及生成式编辑等创新AI应用‌
OPPO Find X7：‌‌通过搭载OPPO自研大模型AndesGPT，‌可以在200字的首字生成带来20倍的更快响应。其中，‌AI通话摘要功能可以在通话结束后智能识别通话内容，‌生成重点信息摘要，‌并快捷记录联系方式等信息‌
小米14 Ultra：‌首次搭载AI大模型计算摄影平台Xiaomi AISP，‌将AIGC技术应用到计算摄影领域。‌基于Stable Diffusion模型，‌解决相机中长焦功能拍摄距离远、‌成片效果模糊不清、‌缺少真实性的问题‌
VIVO X100系列：‌搭载自研的“蓝心大模型”，‌通过大参数AI算力的端侧部署与云端服务，‌为用户提供蓝心小V、‌蓝心千询等终端智能应用交互。‌

魅族21 PRO：‌该手机可实现包括AI语音助手、AI图库在内的多项AI功能，可进行专业知识问答，也可根据自然语文生成文本或图片，还可帮助用户自动生成消息回复，并根据用户需求进行长文创作。

而主控方面，支持AI 功能的主控芯片不多，能用的主控是45Tops算力的高通骁龙8 gen 3 , 联发科天玑‌9300+ 和 Apple的35Tops 的A17 pro。而下半年三家也分别会发布据传100Tops 的骁龙8 gen 4， 天玑9400 和A18 pro。

AI PC能做什么？

    Gartner 对 AI PC 的定义是指配备专用人工智能加速器或内核、神经处理单元（NPU）、加速处理单元（APU）或张量处理单元（TPU）的个人电脑，旨在优化和加速设备上的人工智能任务。

    微软和英特尔联合制定的 AI PC 定义：须配备 NPU、CPU 和 GPU，并支持微软的 Copilot，且键盘上直接配有 Copilot 物理按键（该键取代了键盘右侧第二个 Windows 键）。这意味着已经发布的 那些缺少 Copilot 键的 Meteor Lake 和锐龙笔记本电脑都不符合微软的官方标准。

    由于人工智能模型种类繁多，英特尔表示运行大语言模型时内存容量将成为一个关键制约因素，某些工作负载可能需要 16GB 内存，甚至可能需要 32GB 内存。自然地，这就需要更高的成本，尤其是在笔记本电脑中，但微软尚未定义最低内存要求。

    而处理器方面，高通去年年底推出的 Snapdragon X Elite 平台，算力可以达到 45 TOPS，符合 AI PC 要求；AMD 即将推出的 Ryzen 8000 系列（Strix Point），预估也符合 AI PC；而英特尔去年 12 月推出的 Meteor Lake，其 CPU+GPU+NPU 算力仅 34 TOPS，并不符合微软要求，预估今年推出的 Lunar Lake 会超过 40 TOPS。

    值得注意的是，未来高通、英特尔和 AMD 竞逐 AI PC 过程，也将牵动 x86 及 Arm 两大 CPU 阵营在 Edge AI 市场的竞争。戴尔、惠普、联想、华硕、宏碁等主要 OEM 厂商在 2024 年将陆续开发搭载高通 CPU 的机型，试图瓜分 AI PC 蛋糕，会给 X86 阵营造成一定威胁。

    至于安防行业，由于传统CNN普及最高的市场，多模态大模型的出现 势必会增加安防行业的智能化普及率。传统CNN+多模态大模型的结合，将会帮安防行业实现更多的新功能，从而实现一些传统CNN无法实现的功能。

【大模型市场的出货量】

    那AI Smartphone和AI PC是否会带动整个市场的需求呢？从Canalys的出货量预估来看，AI Smartphone和AI PC 无法对Smarphone和PC的整体出货量带来更多的增长，但AI smartphone和AI PC在smartphone和PC市场中的占比，还是会增长非常快的。

来源：Canalys

【为什么要在端侧普及大模型？】

很多受限于技术的发展，很多模型都是跑在服务器上的。很多AI 应用都是将数据从端侧传至服务器，服务器处理后，再将相关的数据传回至端侧。但这就会产生几个问题：

隐私保护
比如家用NAS。很多人安装家用NAS，目的就是为了不想将自己的隐私给到云端的网络供应商。但若在NAS上跑智能算法还需要将数据提供到云端才能使用，等于将自己的隐私传输出去
可靠性
部分产品，比如翻译笔的应用场所网络不好时就无法使用的话，对产品的易用性也会造成很多困扰
响应速度
将数据从端侧传至服务器，再将处理后的数据传回来，这个过程自身就会受网络性能和数据量多少的影响，产生相应的时延，这对用户体验都是一个挑战
成本效益
如果大量的端侧设备同时运行AI 应用，对服务器端也会产生更高的要求，需要更强性能的服务器。但过了高峰期后，服务器又闲置起来，造成资源的浪费。

【如何在端侧普及大模型？】

    若想在端侧普及大模型，重中之重就是需要降低端侧SoC的成本和功耗。

    如果想在端侧普及大模型，就有几个注意事项：

总算力不能太大
高通的骁龙Gen3 算力高达45Tops，而其平均单价高达200美金左右。算力太大，芯片成本自然会增加，这样的成本势必无法做到低成本普及
大模型的参数量不能太大
行业内通用的公式是1B参数量的模型，需要1.5GB/s的DDR带宽。高通/联发科的旗舰SoC的带宽76.8GB/s 看起来很大，但需要使用带宽的地方非常多，CPU、LCD都需要，而76.8GB/s的带宽是总带宽实际能使用的带宽50%就差不多了。若跑个13B参数量的模型，光模型就需要20GB/s，带宽会非常紧张，并且造成非常大的功耗。
大模型需要往4bit 发展

目前很多大模型采用的都是fp16, int8等精度。若能将大模型优化到int4/int8的混合模型后，势必会降低算法的参数量，以及算法的功耗

若想大模型在端侧普及，势必需要芯片的供应商在算力、DDR带宽、大模型参数量，以及最终的芯片成本上做一个平衡，做到既便宜又好用还是非常难的。贾扬清借用来源自Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的图，来说明传统CNN的模型大小和算法精度发展关系。

    而贾扬清也表示目前大模型的发展跟前些年的CNN模型一模一样，先变大再变小变高效。

    其实大模型和小模型各有各的作用，先通过大模型训练出需要实现的功能，然后将大模型精简，精简成更高效的小模型，这样才能使这个模型更加普及，更加广泛的被应用。

    当然目前的LLM也不是全是优点。主要有以下问题：

幻觉问题：也就是大家说的，LLM 会一本正经地胡说八道。这是LLM内在feature，而非bug。加大模型可以减少幻觉，但不能根治幻觉。因为若LLM 去掉了幻觉，就等于缺乏了想象力，张冠李戴是顺畅生成的必然。
不稳定性：不稳定才有创造性和多样性。不稳定会带来惊恐，也会带来惊喜。这样的问题，有利于艺术创造任务，但也是领域落地的命门
知识欠缺：因为模型不是数据库，是条件预测，不是检索。这就造成LLM在处理专业问题时，容易出问题。

而这几个问题，也不是无法改善。比如通过检索增强生成（Retrieval Augmented Generation），简称 RAG，已经成为当前最火热的LLM应用方案。我们向 LLM 提问一个问题时，RAG 可以从各种数据源检索相关的信息，并将检索到的信息和问题注入到 LLM 提示中，最后LLM 给出答案。
```
只有这些问题改善，才能让大模型更容易普及。
```