从零开始（大白话）认知大模型--AI2.0新宠儿

最新推荐文章于 2024-08-19 11:32:29 发布

小马的陈

最新推荐文章于 2024-08-19 11:32:29 发布

阅读量1.1k

点赞数 23

文章标签：人工智能 nlp 云计算 ai 算法文心一言

本文链接：https://blog.csdn.net/jiushi26/article/details/135746792

版权

从零开始认知大模型–AI2.0新宠儿

初衷

有幸参加几次 CSDN 的线下活动，见证多元的社区文化，碰撞不同年龄不同行业的思维火花，受益颇多，也了解到很多非专业领域的朋友对大模型技术好奇满满，想要拥抱变化，苦于入坑门槛，因此创作本帖，通俗来讲大模型（用人话）。

目标

让非领域朋友了解大模型是什么，什么原理，能帮助自己做什么，当下进展，有没有必要入坑。
将个人对大模型的认知行业化，从开发和应用两个端点，与各行各业的朋友们碰撞思维火花。

声明

作者对大模型的认知来源一年多以来的众多论文、帖子、会议以及实际项目经验，若有段内容与哪位大神此前的公开内容有高度重合，请私聊进行修改或者引用！

什么是大模型

定义
大模型是大家看科幻片里面的仿生人（人造人）的大脑，它是仿生人学习整个世界的知识形成的具有感知、认识的大脑，能够进行预测和决策，专业点说法就是大模型是一个具有大规模参数量的初始网络结构在载体芯片上对世界上的庞大数据进行学习，最终形成的一个高度浓缩了海量知识的高级网络结构，类似于新生儿对世界无知的大脑通过不断学习，发育为拥有大量社会知识的成人大脑。大模型低级目标是特征提取，高级目标是世界模型。

如果直接对大模型的训练师说这样的认知，他们肯定会反驳说有偏见，然后来一段专业的反驳，比如说“大模型是指具有大量参数和计算资源的机器学习模型，是个基础模型，用于更强的特征提取和预测，不具有决策能力”，不同的学派可能有不同的说法，因此我们要进一步了解大模型的产生，从而解释我们对大模型的定义。
大模型形成
事物发展往往符合逻辑规律，大模型也一样，先有了模型，模型不够好，才有了大模型。模型是啥，不扯太远太深的，用大家常用的手机人脸识别解锁功能为例简单描述一下，这是一个利用机器学习（深度学习）技术使用人脸数据训练的神经网络，用于提取人脸特征，提取的特征可以给工程师做业务应用。那么人脸识别神经网络模型可以理解并提取人脸的特征，从而进行识别任务；微信的语音转文字功能里面也有模型，模型可以理解并提取语音和文字的特征，从而可以将语言编码成文字；天气预报预测也有模型，模型经过大量数据训练可以构建不同变量（如时间、空间、传感器数据等）的内在关联，从而进行天气预测。

当前的各种模型提取的特征表达不够强大，只能做各自的事情，还不一定做得好，因此需要更强大的模型来提取更强的特征，来做更多的事情并且做的更好。在各种可能性的尝试中，大模型脱颖而出。因此最初的大模型是为了提取更强的特征，如明星产品 ChatGPT，就是在 GPT-3.5 基础上微调 chat 任务而来，其中GPT-3.5就是基础大模型。不过大模型作为人工智能的一种技术手段，最终要向人对齐，人在每次喝水的时候可不会先判断水是不是水，杯子是不是杯子，喝水用嘴还是鼻子，而是经过小时候少量学习后，直接拿起装水的杯子用嘴巴喝。所以模型最终会将特征提取单一能力升级成认知、预测并决策负责能力。
大模型现状
我们已经把大模型看成高知识量的大脑，当前还没有一个超级大脑可以把真实物理世界和虚拟网络世界的各行各业、方方面面知识全学会，真实情况是还差得远。在自然语言方面，大模型先走一步，出个很多效果很好的通用模型，这里的模型数据是文本、语音等非结构化的数据，计算机视觉方向的大模型在23年也涌现出来，并且很多工作是和大语言模型交融，做的多模态，这里的数据仍然是非结构化的数据，其它各领域也不甘落后，都有了自己的领域通用大模型，甚至医学、金融、工业等大量结构化数据领域也相继出现各自大模型。总之，当下大模型作为海量知识存储的大脑，并能精准检索提炼知识，生成检索的响应回答，相比”人工“智能，终于拥有了一些”自主“智能，被视为生产力工具，降本增效，几乎所有领域都在积极探索大模型技术，当然目前还处于起步阶段，还不成熟。

大模型的应用

大模型不是 ChatGPT，ChatGPT系列是大模型的一种，属于大语言模型（LLM）。有一部分大佬将模型参数量大于10 亿作为大模型的特征之一，因为研究发现自然语言模型中的涌现现象是在参数量超过Billion 才出现的。但本文从各领域角度出发，定义大模型不只包括NLP领域，因此除了 LLM，大模型还包括视觉大模型（LVM）、多模态大语言模型（MLLM）、结构化大模型等。这些大模型在自然语言处理、计算机视觉、语音识别、工业/金融/气象等预测、推荐系统、机器人、自动驾驶、教育、医疗等各领域都有广泛的应用。

大语言模型
LLM可以理解并生成语言（本文），因此在自然语言处理任务上有广泛的应用，如文章写作、诗歌创作、小说解读、代码生成、知识问答、虚拟情感聊天、NPC等。LLM 还有个重要作用，纯粹的人类语言理解能力，可以将人类的语言理解并传达给机器，机器再转换成机器指令传送出去，这就足以做很多实际应用。
视觉大模型
LVM 是一种用于视觉任务的模型，广泛的讲，它包括纯视觉的大模型以及以视觉任务为主的多模态模型，前者学习图像内部的上下文关系，后者通过学习大量图像-文本对的视觉-语言关联学习到了图片中的要素对应人类语言的含义，可以用于zero-shot （零样本）预测、图像标注、图像描述、视觉问答、视频理解、图片分类、图像检索等任务。
多模态大模型
多模态模型与 LVM 有一定的交集，还包括其它模态的融合，比如雷达、音频、视频、文本等，重点并不是单纯的视觉任务，偏多模态的交互，此外还有个比较火的方向，多模态大语言模型（MLLM），它会更偏向人类感知模式。多模态大模型常见应用如 AIGC 的主流应用文生图、看图写故事、OCR 图片的数学推理、基于图片的问答等。
结构化大模型
结构化大模型是指模型可以处理结构化数据，结构化数据指具有标准规范存储的数据，如医院抽血做血常规的数据报告，里面的数据是变量名称+变量值。生活中有大量结构化数据，数据与数据之间有比较强的独立性，有些具有极强数学相关性，有些符合物理学理论，有些由化学作用产生。根据数据的来源，结构化大模型的应用有气象预测、机器故障预测、病症诊断、股票预测等。

总之，大模型在各个领域都有着广泛的应用，可以帮助人们更好地理解和处理数据。大模型的应用可以提高工作效率、降低成本、改善生活质量，就像互联网经过几十年的发展，应用到生活中衣、食、住、行、娱乐、医疗、教育等方方面面，大模型也是一样。
在这里插入图片描述

大模型的基本实现原理

不同领域的大模型实现原理差异会很大，目前也没有通用全吃的世界模型，这里面向其它领域小基础的朋友，就不说特别深的细节，光介绍效果好的、广泛的原理。
现在大模型实现分三步走：1是先设计个大规模的网络，用海量的数据进行预训练，训练出一个对输入内容（如文本、图像、语音等单一模态或者多模态的数据）理解能力很强的基础模型，2是人工标注一定量的高质量数据，进行任务对齐，目的是让啥都学的基础模型（数理化政史都要学的高中生）朝着任务目标成长（理科很强的大学生，文科知识也还没遗忘，整体知识质量很高），3是人类反馈对齐（大学生去给其他同学讲课，这个过程也不断得到反馈，慢慢自己的知识提升更符合大家的认知，可以真正去授课）。这三步并不是一次性结束的，是慢慢迭代直到实现最后满意效果。

怎么入坑大模型

入坑大模型，分为大模型应用、大模型零代码微调、大模型开发三个程度。大家可以根据自己的专业水平来选择入坑姿势。

大模型应用

当下大模型火热时间尚短，模型稳定性还不够好，围绕拥有较大容错率的行业大模型产品成熟度更高一些，比如ChatGPT做知识检索，Stable Diffusion做图片生成，Sora做视频生成等，将大模型作为生产力工具，提高自己的工作效率、提高娱乐快感，让生活更便利。写作、绘画、图像编辑、聊天、翻译、视频生成编辑、数字人、编程、文档办公、语音编辑，生活中的很多方面都有了大模型的影子。

大模型零代码微调

既然是零代码，那么对用户无编程要求，更多的需要用户能想、敢想，然后利用现成的平台去做DIY。不做广告，因为我只用过百度千帆大模型平台和百度飞浆AI社区，所以就介绍他们（由于平台创作需要费用）。百度的这两个平台已经是比较齐全的在线AI创造工具，直接使用或者DIY都能满足端到端的需求（只要票子够，毕竟人家也需要生活），作为线上开发平台，它们对用户社区比较看重，有很多免费的实战教程和活动可以学习。

大模型开发

开源社区给我们提供了大模型开发的机会，不断有成熟的大模型开发框架、免费的模型开源，让普通人也能爽爽大模型，尤其越来越多优秀的基座大模型开源，让我们只需要有数据和少量算力资源，就可以微调我们的任务。能做大模型开发的跨界朋友都有一些编程基础，可能困惑模型选择、环境搭建、效果调优等问题，给建议是不要盲目相信论文实验和公众号解说，找G站点赞收藏多的框架和模型进行二次开发，如果有遇到问题可以比较容易找到解决答案。

怎么转行大模型

将大模型作为生产力工具！将大模型作为生产力工具！
23年年底，AI行业也惨淡，很多创业小公司、自驾公司、安防公司、互联网公司都在裁员，大厂offer也捂着慢慢挑人。但小编才跳槽的，发现大模型开发的工作还是很轻松找的，有个大模型的项目经验就能轻松拿些offer，有两年经验的可以翻倍跳槽。此帖是面向行外朋友，大模型开发还是有编程和理论门槛的，而且硕士烂大街博士都在卷。这里不建议外行跳大模型开发，建议两条转行大模型的路子，第一，做大模型的使用者，进行价值生产，利用大模型从事翻译、写作、编辑、图像视频创作等工作，一方面因为此类大模型相对成熟、商业化程度高、容易获取，另一方面主打信息差，大模型这股风还没吹到二三线城市，越早参与获利越多；第二，调用大模型的API做商业应用，第一波朋友已经获利满满了，现在入场还来的及，不一定要挤进chat相关应用，在多模态、视觉理解、翻译、音频字幕等很多其它领域大模型才展现优异效果，还能抢占市场，这类API调用成本也不低，同样越早参与进来利润空间越大。

空时手机写的内容，乱糟糟的，诸位看官若有疑问、不满，欢迎留言~~