大模型如何在垂直且封闭的行业(如电力行业)扎稳脚跟?

一、前言

本篇将以What、Why、How、Think四个主章节展开,不说废话,只有干货。

在ToC领域,大语言模型已经走进用户的方方面面,不论在工作还是生活中,已经可以为用户带来便利和价值,然而在ToB领域,如作者所在的电力行业,因为行业的特殊性:重资产、需安全、强壁垒、数字化水平不一、数据质量差等原因,想要和ToC一样真正把大语言模型落地且应用,对生产有实质性带来价值,各方都需要做出很大的努力。

如国网的光明电力大模型、南网的大瓦特,与互联网企业合作开发和训练,目前已经官宣,在逐步应用阶段,但是对于生产的赋能还有很长的一段路要走。

二、What:什么是大模型?

大模型全称为大语言模型(下面称LLM),指基于深度学习的大规模神经网络模型,用于生成自然语言文本。这些模型通过训练大量的文本数据,学习语言的概率分布和语义关系,从而能够生成具有语法正确性和语义连贯性的文本,从属于人工智能 > 机器学习 > 深度学习 > 大语言模型。

抽象来看,LLM = 算力 + 数据 + 算法,算力即基础硬件资源;数据即高质量的数据集;算法即基于深度学习的大规模神经网络算法。

大语言模型在ToC领域的主要应用场景:

  1. 内容生成:根据用户输入和提示生成全新的内容

  2. 内容增强:扩展现有的内容,以填补和扩展新的数据集

  3. 内容转换:将数据转换为用户所需的格式并加以部分操作

  4. 交互方式:从传统点击请求交互模式转变为问答式、自然语言对话式等

  5. 信息检索:在限定知识范围内,根据用户提示检索特定信息

  6. 文本摘要:对文件、代码等进行提炼和总结形成摘要

以上较为成熟的能力,并不适用于传统行业,尤其是大型ToB/ToG企业,如能源电力、工业生产等,生成式问答对于生产型企业的价值可能并没有那么大, 他们更需要的是生产指导、业务流程简化、设备巡检和运维、服务提升等方面。

三、Why:大模型落地困难的点是什么?

企业视角落地困难点:

  1. 需求场景难匹配:因行业封闭性,需挖掘自身业务需求并结合AI应用,现阶段多是基于通用大模型进行需求匹配和场景设计,需要AI和业务两类专家协同,且难以预估大模型落地的业务价值。

  2. 落地周期长:当前绝大多数大模型方案以技术服务为主,落地场景应用及数据集制作、模型训练等工作仍然需要大量的研究和设计,探索和实施周期长。

  3. ROI难评估:大模型对于训练和优化所需计算和存储资源要求高,且模型性能高度依赖于大规模、高质量的训练数据集。企业普遍缺乏AI领域的数据、算法等专业人才,也面临研发实施投入高、投资回报难以评估且周期长的问题。

  4. 基础建设不完善:企业基础建设不完善,难以达到大模型落地的水平,

技术视角落地困难点:

  1. 如何筛选出适用于中文的、推理和生成能力都比较好的作为基座模型?

  2. 如何做出一个大模型需要的高质量的数据集?

  3. 如何基于基座模型和数据集,调教出一个性能优秀的垂直大模型?

四、How:想在行业扎稳脚跟要怎么做?

本着成本可控效果可行的追求性价比的建设思路,在有充足算力的基础上,筛选出中文通用推理和生成能力足够优秀的深度学习的大规模神经网络算法,通过整理和归纳行业特有的高质量的数据集,在其基础上进行微调和推理乃至训练,形成具备电网特定场景能力的垂直领域大模型。

具体建设步骤如下:

  1. 梳理业务场景:全面梳理可落地业务场景,根据业务价值和技术可行性评估出一俩个场景进行POC试点,效果可行以后由点及面铺开统推。

  2. 数据收集与硬件资源:根据场景确定数据源进行预处理,对硬件资源进行规划,基于预计的模型规模、训练时间以及后续支持的并发量,合理配置服务器资源。

  3. 模型框架选择:评估当前市场上已有的大规模神经网络算法进行适配性分析,其是否适应行业的特殊性,实力强的企业也可以直接自研或采用自研-开源结合的方式。

  4. 模型训练:利用公共或行业通用的大规模数据集对模型进行初步训练。基于初步训练的结果,在自有高质量数据集上进行微调,使模型更贴合具体应用场景,随着数据集的积累,持续迭代。

5、 模型评估

1、内部测试:评估指标体系,包括准确率、召回率、F1分数等,用来衡量模型的表现。

2、用户反馈:工作人员参与试用,收集他们对于模型输出的意见和建议。

3、安全性合规性审查:确保模型输出不会引发任何安全问题,例如非法生成、误报或漏报关键事件。

6、 模型调优:优化超惨设置,有必要的话,可以根据业务场景特点尝试修改模型架构,对于有边和端部署需求的场景,可以进行量化或蒸馏。

7、模型部署:根据企业的系统架构进行部署,根据应用场景进行功能设计与开发。

注意:POC设计及后续统推:需要考虑企业的特殊性,用户的特殊性,架构的特殊性。

五、Think:从行业角度对未来的思考

  1. 从大模型行业来看:目前大模型产业结构呈现出一种倒三角形态,数据层的规模与质量、算力层的硬件性能和容量,实际上限制了模型层及应用层的发展潜力。随着国家推行一系列政策,如数据资产入账等规定,沉下心来做数据集资产未尝不是一个下沉的赛道。

  2. 从部署模式来看:行业正经历从云端向边缘计算和终端设备转移的趋势,尤其在预测性、决策性和生成性模型算法中体现得尤为明显。典型如:设备预测性维护/自动驾驶、安全检测、设备巡检、服务行业+数字人等场景。

  3. 从国网行业落地看:国网公司关乎民生生产,是安全强相关的行业,收敛型算法适用于直接服务于系统和设备的场景,而生成型算法则更适合促进人机交,在强安全要求的领域,应尽量引用知识图谱做知识增强而不是向量库(RAG)。

  4. 从国网数字化转型看:国网数字化转型的关键在纵向链路流畅、横向业务贯通,集成化、中台化是国网公司发展的战略步骤,在大模型也是,MaaS(模型即服务)是国网落地最佳形态,由统推预训练大模型结合各网省各部门的个性化微调,满足不同业务场景的需求。

作为数据从业者的我们,积极拥抱和参与,才能不惧八面来风,驾舟而行。

六、小结

大语言模型(LLM)作为深度学习的一部分,已在ToC领域广泛提供便利。然而,在如电力等ToB行业中,由于行业特性——重资产、高安全要求和强壁垒,LLM的落地面临挑战。主要困难包括需求场景匹配难、长落地周期、ROI评估复杂及基础建设不足。技术上还需解决模型选择、数据集构建及性能优化等问题。

为在行业中稳固应用LLM,需采取成本可控且效果可行的策略。首先,梳理业务场景并挑选试点,通过POC验证其可行性。其次,收集整理高质量的数据集,并根据预计的模型规模配置硬件资源。然后,选择合适的模型框架进行训练与微调,确保模型适应具体应用场景。建立严格的评估体系测试模型性能,同时考虑用户反馈和安全性审查。对于模型调优,优化参数设置甚至调整架构以提高效率。部署时结合企业架构设计功能,满足不同场景的需求。最后,推广前应进行全面的POC验证。

未来,随着国家对数据资产管理的重视以及云到边端部署的趋势,适合国网行业的收敛式和生成式算法将分别服务于系统设备和人机交互,促进国网数字化转型,实现纵向链路流畅和横向业务贯通。拥抱这些变化,将助力企业和从业者在数字时代稳健前行。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值