AI大模型探索之路-认知篇1-全景透视:揭秘AIGC技术的进化之路

前言
随着人工智能技术的突飞猛进,内容创作方式的发生了革命性的转变;从早期专业人员主导的内容生产,到现如今生成式人工智(AIGC)能创作时代;本篇文章主要讲解AIGC技术的演变历程。

一、内容创作发展历程
1)PGC时代(Professional Generated Content):专业人员生成内容,早期互联网时代的内容创作主要有媒体机构的专业人员编辑发布,如新浪、网易等门户网站。
2)UGC时代(User Generated Content):用户生成内容,用户成为主流内容创作者,普通用户都可以参与创建和分享,包括微信、微博、今日头条、抖音等平台。
3)AIGC时代(Artificial Intelligence Generated Content):人工智能生成内容,人工智能开始参与内容创作;通过机器学习和自然语言处理技术,AI能够自动生成新闻、文章、图片等。


二、AIGC底层原理
ChatGPT底层到底是怎么理解人类语言的呢? 向量化
1)数字化:把现实问题转换为数学问题;计算机将现实世界的内容(文章或者图片)全部转化为0101这样的二进制进行存储;
2)向量化:对于计算机来讲,他只是把文章和图片存起来了,但是文章里面讲的啥,或者图片里面画的啥,他是不知道的?无无法理解的; 将单词或者图片拆解为多维度向量数字之后,使得计算机可以通过数学计算的方式推算2个单词的距离,从而发现他们的关联关系 (比如:当两个单词的向量值,计算的距离越近,相似度越高)


三、AIGC之谷歌word2vec算法
2013年google开发了word2vec计算法,主要将单词转换为向量,而这些向量在向量空间中的位置能够反映单词之间的相似性,从而使得计算机能够更好地理解和处理自然语言。(变成向量后,就可以从数学角度,进行计算2个单词的向量之间的距离)

四、AIGC之Transformer算法模型的出现
1.传统神经网络算法
1)卷积神经网络算法CNN(主攻图片处理)
2)循环神经网络RNN(主攻自然语言)
3)卷积循环神经网络CRNN(主攻音视频)

2.Transformer算法模型
Transformer对比传统模型的优越性
自注意力机制:每个词向量都会关注输入序列中的其他词,以捕捉它们之间的关系。这允许模型建立上下文表示,其中每个词都包含有关整个输入序列的信息,可以捕获长距离关系,传统的循环神经网络算法,只能捕获短距离相近的序列中的词的依赖关系。
并行化处理:由于Transformer不依赖于前一个时间步的输出来生成当前时间步的输出,它可以在整个输入序列上进行并行化的计算,提高了处理长序列数据的速度和效率。
全局上下文:Transformer的自注意力机制允许模型直接获取整个输入序列的上下文信息。这使得它在处理复杂的语言模式和长距离依赖时更为高效

核心概念
自注意力(Self-Attention):(能够在不同位置不获取全局信息,以便模型更好的理解句子的语义和结构)模型在处理一长段序列数据时,可以关注检查到序列中的所有位置的其他元素;不需要像循环神经网络那样进行循环处理,即可对每一个输入元素(一个词向量)与其他元素进行交互,加权计算的到一个输出的向量(即找他们之间的关联干系)。
多头注意力:由多个自注意力组成。它包含多个自注意力机制的头(Head),每个头关注序列的不同部分。(多头注意力机制将Query、Key和Value分割成多份,每个头分别处理一份,然后再将结果合并)

五、AIGC之Transformer算法模型演进
1. BERT模型
公司:Google
训练方式:自编码
预测目标:给定上下文,预测缺失的单词
输入处理:双向学习(同时考虑一个词的左右两个上下文)
架构:基于Transformer的编码器
语言模型:判别式
优点:对上下文理解力强
适用场景:擅长完形填空、有助于信息提取,适合问答系统,情感分析等

2. GPT 模型
公司:OpenAI
训练方式:自回归
预测目标:给定前面的单词,预测下一个单词
输入处理:单向学习(从左到右或者从右到左)
架构:基于Transformer的解码器
语言模型:生成式
优点:预测连贯性比较强
适用场景:擅长词语接龙、预测下一个单词;适合文章、创作、生成式任务

六、AIGC之ChatGPT模型现世
OpenAI对GPT进行微调,专攻自然语言方向,投入了大量的对话数据进行训练,优化加强了大模型的语言回复能力。【增加了训练层数、向量维度、训练数据;当参数达到一定量的时候(超过1000亿),让GPT产生了“智能”,ChatGPT 出现了】
GPT1:2018年,引入了预训练加微调
GPT2:2019年,加大的训练规模,提出了无监督多任务学习
GPT3:2020年,进一步加大训练规模,引入了少量样本学习能力
GPT4:2022年,多模态模型(图像的输入理解),各方面性能提升、扩展了上下文窗口

结束语
ChatGPT的问世是内容创作领域的一场划时代变革,它代表了人工智能技术演进至一个新的里程碑,标志着智能内容生成(AIGC)技术的兴起,目前AIGC已经成为创作内容中不可或缺的工具。它不仅极大地丰富了用户的内容体验,而且正逐步重塑各行各业的工作流程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值