人们只因未知而感到恐惧,可一旦人们面对未知,就会变得无所畏惧。
用了很久的Chatgpt,却一直没有搞清楚AI大概到底是怎么实现怎么运作的,因为每次一搜索AI的原理,就蹦出来一堆看不懂的专业名词。
今天用接地气的方式,重新简单的认识一下AI的原理。
1. AI大模型
这个世界好像每天都有大模型的新闻,AI大模型到底是个啥?
其实模型还是好理解,一般来说,模型就是对一类事物的抽象,比如人类就是一个模型,人类这个模型有一些通用的东西和行为,比如吃喝拉撒,结婚生子。
我们得到人类这个模型,就可以有一个大概的判断,比如你亲戚一见到你,就会问你“结婚了吗”“在哪工作啊”,这说明大多数情况下,你可能会有这样的行为和结果。
但是人是有不同的类型的,比如你是个渣男,你大概率会有劈腿的行为,那这就是一个渣男的行为方式,也就是一个渣男的模型。
人类是很复杂的,世界上没有相同的两个人,因为没有人会有完全相同的经历。每一个经历和事件塑造了我们本身,所以人类是一个超级超级大的模型。
所以我把大模型姑且理解为 一组处理专用事务的人脑神经通路,比如我们的语言能力,就是一组大模型,从小到大我们都在学习语言,理解语言,慢慢的我们大脑中关于语言的神经通路就被慢慢增强,形成了自己的语言表达方式。
2. AI大模型训练方式
2.1 数据收集
首先,收集大量的文本数据,可能是从互联网上抓取的各种网站、书籍、文章、对话记录等。这些数据覆盖了各种各样的主题和领域,以确保模型可以学习到丰富多样的知识和语言模式。
这就是我们从小到大接收外部信息的过程。
2.2 预处理
数据被清理和处理,以确保模型可以理解并学习其中的内容。这可能包括去除噪音、标记化文本(将文本拆分成单词或词组)、处理语言结构等。
这就是我们从小学开始学习的语文课程,而且我们课程肯定是积极向上的,已经去除了不良的内容。
2.3 模型架构选择
选择并设计神经网络的架构,确定模型的层数、每一层的神经元数量、注意力机制等。在GPT系列中,采用了Transformer架构,这种架构在处理语言上表现出色。
每个人学习语言的时候,会形成自己的一套学习方法。
2.4 预训练
在大规模的计算资源下,使用预处理的数据对模型进行预训练。这个阶段是模型学习语言模式和上下文的关键时期。通过预测下一个词语、填补缺失的词语或理解句子关联性等任务,模型不断调整自己的权重,以提高对文本的理解和生成能力。
开始上语文课和英语课。
2.5 微调与优化
模型在预训练后可能需要进行微调,这意味着使用特定的任务或领域的数据集来进一步训练模型,以使其在特定任务上表现更好。例如,在问答、摘要生成或语言翻译等特定任务上微调模型。
然后你爸妈和老师对你的语言表达进行适当的调整(通过口头或者皮鞭的方式)。
2.6 评估与迭代
训练过程中会进行评估,检查模型在各种语言任务中的性能表现。如果性能不佳,可能需要调整模型架构、超参数或数据处理方法,并重复上述步骤。
如果你还不咋会说话,就需要你多学习一下说话方式,比如去买本蔡康永的《说话之道》。
3. 神经网络架构
在上面的训练过程,我们可以发现有一个关键步骤是选取神经网络架构,那么神经网络架构是什么呢?
其实神经网络架构可以理解为我们每个人学习能力的属于自己的学习方法。比如你学英语,你可能会通过不停朗读单词,默写单词的方式去学习,但是也有人是通过看图片和单词的卡片去学习英语。你学写作,就需要不停的阅读好的作品加上持续的输出来掌握这种能力。
所以根据不同功能的需要,神经网络架构有不同的使用场景。举个例子
卷积神经网络(CNN):
类似于人类通过观察视觉图像来学习。就像我们可以通过观察图像中的特定特征(比如颜色、形状、边缘等)来认识物体一样,CNN也能够通过不同层级的卷积来提取图像中的特征,从而识别图像中的物体。
递归神经网络(RNN):
类似于人类在处理连续性任务时的记忆和学习方法。人们在理解和处理语言、音乐、故事等连续序列时,往往需要记住之前的内容,并结合新信息来理解整体。类似地,RNN通过记忆之前的信息来处理序列数据,如文本、时间序列等。
生成对抗网络(GANs):
可以类比为人类在创造和创新方面的学习。就像人们通过不断尝试、改进和对抗来提高自己的技能和创造力一样,GANs包含着两个部分,一个负责生成新内容,另一个负责评判和区分真实与伪造的内容,从而不断提升创作和创新能力。
4. 不同种类的AI大模型
前面我们知道了,不同的神经网络适用于干不同的事儿,于是就有了干不同的事儿的能力模型。
语言模型:
Chatgpt是由OpenAI开发的一种大型预训练语言模型。它是基于Transformer架构(神经网络架构)构建的,是GPT系列的第三代模型。
还有谷歌的BERT,中国的ChatGLM模型,都是语言模型。擅长做自然语言处理,包括对话,生成内容这些。
生成对抗网络:
Midjourney采用的就有DAGAN(Data Augmentation Generative Adversarial Networks),这种模型的主要目的是利用生成对抗网络的能力来增强图像数据集,从而提高深度学习模型的性能和泛化能力。
DAGAN的核心思想是利用生成器和判别器的对抗训练,以生成逼真的图像样本,这些样本与原始数据集中的图像非常相似。
..省略...
5. 总结
所以AI大模型就是一组处理专门事务的能力的神经回路,神经回路的底层是由 训练 + 神经网络架构(学习方法)组成的。
有了这个概念,我们就可以想一想,我们想要AI为我们做的事是什么,然后根据不同网络以及模型的特点去选取对应的产品。
AI不只是ChatGPT,当我们和ChatGPT聊得正欢的时候,不同行业,不同专业都有一群人在深入开发更加具有专业能力的AI,就像人类的每个领域都有专家一样。
附:中国大模型一览表
https://github.com/wgwang/awesome-LLMs-In-Chinahttps://github.com/wgwang/awesome-LLMs-In-China