整车智能大模型应用研究探析

最新推荐文章于 2024-07-22 21:21:48 发布

AI大模型_学习君

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量651

点赞数 30

文章标签：人工智能 ai大模型大语言模型大模微调大模型应用智能大模型计算机技术

本文链接：https://blog.csdn.net/python12345678_/article/details/139830457

版权

“十四五”期间，国家出台了针对人工智能的未来发展相关指导方案和激励政策，涵盖“新型基础设施”建设、人工智能标准化与法规以及AI安全体系建设等。近几年，智能汽车行业目前正处于快速发展阶段，预计到2025年产业规模将突破5000亿元。智能座舱、智能驾驶、智能底盘已经发展到了技术的高速“涌现”期，同时也是瓶颈期，有望通过整车智能维度打通三域的感知、硬件、软件、执行隔离，实现全维度融合智能决策，在有限的物理成本下构建最大的最大功能收益。

1. 价值与趋势

1.1 大模型是AI重要的技术发展方向

AI成为车辆各域智能化功能实现飞跃的核心动力，大模型的引入为AI提供了泛智能的通用工具，显著提高了智能深度，从用户感知维度有了质的飞跃，实现了从“伪智能” 到“真智能” 的发展，达到了化繁为简、无感交互、善解人意的用户体验，也是实现产品科技赋能的低成本、高收益突破点。根据对各大主流汽车企业和新势力的调研分析，前瞻领域重点方向包括：

多模感知与功能融合
高自由度的智能控车
高效准确的类人交互

1.1 大模型已经成为人工智能的主流趋势

现在，我们进入了人工智能时代，从过去多个算法、多个任务、很多模型，走向相对统一的大算法、多模态，自训练、自监督和预训练的大模型，大模型让汽车对于人和环境的理解更加全面和准确，对于场景的解析和任务功能的构建更加完整和高效。大模型在全过程的能力和优势在于：

语义和意图解析
环境变量考虑
基于可调度的功能智能组合
功能过程中基于人的反馈微调

1. 应用策略

1.2 全局感知是整车智能实现的基础

大模型的优势在于多模感知和协同决策。基于用户的自然语言转化成prompt输入，结合车辆交通环境、舱内环境、驾乘人员状态、车辆动态等多维度，实现功能自动化、程度自适应，给出当前最优功能调度。全局感知包括了车辆智驾、底盘域的多类传感器，各种域的传感器共同协同大模型判断当前场景的状态，应该以什么功能或者性能唤起对应的功能，准确合理的解决用户的需求。

智驾域：前视摄像头、侧方摄像头、环视摄像头、后摄像头、Radar、Lidar；

底盘域：加速度传感器、速度传感器、转向角传感器、IMU、位置传感器、踏板传感器

驾舱类：舱内外温度传感器、空气质量传感器、DMS、OMS

1.3 大小混合模型解决全场景问题

模型越大对物理世界的描述就越准确，所以大模型可以云端部署，通过V2X实现车端互联；小模型车端部署，实现无网、弱信号的功能冗余。在技术维度，小模型可以帮助大模型快速学习，大模型的能力可以传给小模型，从而实现两者联动和互助，协同进化。

1.4 端云融合解决算力协同问题

大模型对于算力的消耗较大，对于一部分算力储备不足的车辆采用端云结合的方式能够有效实现功能的梯度化与用户体验的优化。单车小模型保证了基础功能的实现（基本智能），云端大模型实现了高维理解和执行（高级智能），在网联通讯好的情况下通过端云连接能够实现秘书级的全局功能交互，同时保证不消耗车辆算力。基于云端部署的大模型通过知识蒸馏转化成保留核心功能的小模型，通过OTA的方式更新迭代车辆单车小模型，实现单车体验的可升级。

梯度化高效算力分配、降低单车成本
协同机制保证基础体验和高级体验
多用户访问的大模型能迅速获取知识实现微调
小模型OTA实现了单车功能的可升级

2. 交互和智驾的全新体验

2.1 基于多模态实现功能交互，面向整车功能的端到端智能

大模型的应用使得自然语音交互不仅能更好的拆解用户意图，还能准确实现功能调度，提高了用户对于车内功能使用的可用性与易用性。交互最难的地方有两点：一是对用户场景的感知和理解，二是该主动推送和组合什么功能满足实时性需求。大模型对于这两点恰恰是强项，通过车内外多模感知的信息采集，实现全维度的场景综合理解，构建基于当前状态下的最大概率的功能需求预测和量化设置。

2.2 智能驾驶逐步开始试探性应用，有望解决复杂场景感知决策

智能驾驶对于大模型的应用相对谨慎，但是大模型对于自动驾驶的潜力巨大。对于城市交互、户外环境的复杂感知环境的理解和判断有助于大大提示智驾系统的认知能力和综合决策能力，优化长尾。

（1）更好的环境理解：大模型能够准确识别车辆周围的物体，如车辆、行人、道路标志等，并自动生成语义信息，帮助自动驾驶系统更好地理解复杂的城市交通环境。尤其是复杂的城市道路场景中，传统的CNN、LSTM等算法无法非常好的理解交通参与体的意图和行为，大模型的可以通过全场景要素综合理解场景，基于经验库，提高预测的可能性和准确性。

（2）长尾场景和进化：基于人工代码的规控模块，无法考虑到驾驶场景中所有的corner case，且难以做到车辆动作的“拟人”决策和驾驶。对于城市中的复杂场景，和层出不穷的新场景，其应对能力是一个很大的考验，需要工程师不停的去优化、迭代算法。尤其是遇到未学习过的场景，系统会表现得不够智能或无法应对，从而出现不好的处理策略。对于预测方面，环境交通参与体的行为具有很高的随机性和无逻辑性，在概率估计和配置中，难以用现有的算法模型实现准确的预测，所以需要极为灵活的实时应对策略，这对于专家模型来说代码量理论上是极大的。比如典型的“cut in”加塞场景，传统智驾需要对车道预插入车辆的横摆角进行实时检测，结合其位置和速度预测其加塞行为，指标单一，而且是纯表象直推策略。端到端是通过对场景的理解进行判断，比如环境车辆动态、车道线、交通灯、转向灯灯，通过多维度的元素，甚至是人类没有意识到的要素进行综合分析，判断意图，所以其理解的天花板更高。

在这里插入图片描述

2.3 整车智能维度将拔高多个功能的智能化水平

（1）驾驶安全性：通过大模型分析驾驶行为和行驶环境，可以实时预警潜在的安全风险，如疲劳驾驶、车道偏离等。同时，大模型还能对车辆状态进行实时监控和预测性维护，提前发现潜在故障，确保行车安全。对于人-车-云多模驾驶能够强化安全性，实现不同主体驾驶能力的多方位感知、评估和预测，实现全工况安全驾驶。

（2）网联与通讯：大模型还能助力车联网服务的发展，通过实时数据处理和分析，提供实时交通信息、最优路线规划等服务。这方面也促进了V2X的方案落地，对于端云融合的实时安全性，超视距信息的可靠性等都有较大的提高。此外，大模型可以帮助车辆更好地与其他设备和服务连接，实现智能家居控制、远程车辆监控等功能，实现生态智能。

（3）个性化与定制化：车载信息娱乐系统将更加智能化。系统不仅能提供传统的音乐、视频播放功能，还能根据用户的兴趣和历史行为推荐个性化内容，甚至能与用户进行深入的对话和互动，极大地丰富了车内娱乐体验。

（4）客户服务领域： 如通过智能客服机器人提供在线咨询服务，解答用户的各种疑问，提高服务效率和用户满意度。包括：车辆功能介绍与使用、车辆故障咨询、车辆功能障碍提示分析与维修推荐、紧急救援。

（5）能源管理的优化： 对于电动车而言，大模型可以通过分析驾驶模式和能耗数据，优化能源使用效率，提供更加精准的续航预测和充电建议，帮助用户更好地管理车辆能源，比如考虑温度、天气、行驶道路的海报等因素，使能耗预估根据准确可靠。另一方面，也可以更加合理的规划行程中的充电。

4. 优劣势分析

4.1 系统设计难度低，硬件成本有望降低

从算法架构设计的角度，其具有高度的整合度和一体化，省去了多个模块的独立架构设计和算法开发，降低代码量和运行所调度的模块数量。另一方面，由于模型直接从原始数据中学习，而不需要依赖于人工设计的特征或规则，所以删去了枯燥的标注工作。最重要的还有一点就是省去了后期无穷尽的规则补充和场景补充，减少了人工维护和升级的成本。

4.2 有望实现真正意义上的类人交互

传统的交互基本是采用专家模型+人工代码实现的基础智能体验，面向真正灵活的“智能体”或者“秘书级”的交互体验，目前大模型是最好的技术策略。由于其对语义和场景的理解要远好于当前的传统AI交互功能，所以对于座舱的体验和面向下一代人车关系至关重要，在足够大数据量后有望能成为秘书级别的交互能力，包括：

基于舱内外环境和人员的多模态感知；
场景复杂工况的综合理解和预测；
多变量因素综合分析下的最佳决策。

4.2 功能达到高度智能化需要较大的训练资源

缺点也是显而易见的，端到端架构将所有模块串在一起统一训练，更利于追求“全局最优解”，但数据的针对性更弱、模型训练的信号更弱，意味着提升性能所需的数据量和算力规模更大。从下边图可以看到，端到端的优势在数据量达到一定程度后性能显著提高，但是缺点是数据量较小时候性能上升缓慢，远低于解耦的传统基于专家模型的策略。

在这里插入图片描述

图片来源：2023年CVPR

5. 总结

综上所述，大模型在汽车的应用具有跨时代的意义，也是通过海量数据的训练使得功能形成了真正意义上具有综合分析能力的智能体。无论是智能驾驶还是智能交互，其都能通过擅长的多模态感知、综合分析、科学决策实现接近人脑思考方式的功能执行链，满足多变的场景的无数的需求。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

AI大模型_学习君

关注

30
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
整车智能大模型应用研究探析

综上所述，大模型在汽车的应用具有跨时代的意义，也是通过海量数据的训练使得功能形成了真正意义上具有综合分析能力的智能体。无论是智能驾驶还是智能交互，其都能通过擅长的多模态感知、综合分析、科学决策实现接近人脑思考方式的功能执行链，满足多变的场景的无数的需求。
复制链接

扫一扫