【人人都能看懂的大模型原理】(二)

二、自然语言的自解释性和自监督学习方法

为了训练一个超级大的模型,我们需要准备海量的数据。然而我们不可能对全部数据进行标注。比如在自动驾驶领域,标注2000W公里的数据需要耗费上亿资金。然而如果最后量产车100W辆的话,每辆车只开20公里,就达到2000W公里了。实际上每台车一年要运行1.5W公里。因此即便花费如此高昂的代价,仍然只能采样相对非常少的数据,并不能保障绝对的安全。因此 我们必须找到一种不依赖标注的自监督训练方法。我们先从自然语言说起。

在这里插入图片描述

2.1 自然语言的自解释性

​ 大模型首先是在自然语言处理取得突破,这并非偶然!社区上有非常多的讨论去解释这个问题。有的专家认为自然语言是人类发明的,是高度信息浓缩的,有利于数据挖掘。也有专家认为自然语言是离散信号,可变性不强,样本空间小。本文作者并不同意这些观点。

​ 作者发现自然语言有个重要特性叫自解释性。所谓自解释性是指词语的含义可以由其上下文来解释。这种特点在中文表现更为明显。英文常用词汇有十万个,而中文常用汉字才6000个。每一个汉字都只表达一个抽象概念,通过汉字相互拼接,然后依据上下文表到达具体意思。这种自解释性还可以体现在字符乱序上。比如这个例子,“**最近家在无太聊我一到天吃晚在鸡”。这句话的字符是乱序的,但是并不影响人类阅读。人类能够快速根据自然语言的自解释性,主动纠正乱序错误。古文阅读也需要自解释性。“大学之道,在明明德”。两个“明”有完全不同的意思,其具体意思完全由上下文决定。

​ 语言的自解释性对于机器学习任务有重要的价值,它意味着所有的训练样本都是潜在自带监督信号的。如果能够设计一种有效的自监督代理任务,我们就能充分使用这些监督信号。在介绍代理任务之前,我们先回顾什么是语言模型。毕竟语言模型是我们的学习最终目标。

2.2 自然语言系统和语义

2.2.1 自然语言系统

自然语言处理(NLP)的目的是对人类的语言系统进行建模,就像对视觉信号建立视觉模型一样。但是语言是一个结构化的,由语法词汇组成的极其复杂的交流系统。语言学家尝试对其进行建模,并能够复现人类的语言,但是都没有取得很好的结果。根据语言学家的研究,自然语言包含典型几大要素:词语概念、词性、事实、语法、指代关系、语言逻辑、语言风格等。我们可以将这些要素理解为语言的高层语义。只有对这些高层语义进行建模,才能够让机器对自然语言进行理解和生成。

作者认为,自然语言系统的这些高层语义的外在体现仍然是字符之间的相关性。例如事实表现为“A is B”;语法表现为各种词语之间的组合规则等。因此语言模型就可以借助机器学习工具来进行模式挖掘。它和视觉逻辑、决策逻辑(alpha Go)没有本质区别,只是信号不一样而已。

2.2.2 语义是什么

​ 不得不强调一下,语言和语义是不同的概念。作者非常欣赏北大鄂维南教授关于语义的定义:语义是语言的翻译不变性。这怎么理解呢?比如配偶这个概念,在不同方言和不同国家都有不同的词语表达。北方人叫媳妇,南方人叫老婆,长沙人叫堂客。叫法都不一样,但是意思不变。这种具体表达直接相互翻译但是保持不变的概念就叫语义。还有一个反面的例子来说明问题。德国有个哲学家叫海德格尔。他非常认同老子的学说,一度尝试将道德经翻译成德语,可惜最后失败了。那是为什么呢?原来他发现道德经里面的某些哲学概念,只有在中国的文明系统里面才有具体体现。而在整个拉丁文明,都不曾有相似的概念。对于在另外一个语言系统下找不到对于表达的语义,就无法做翻译了。因此道德经对于他来说就只能意会而不可言传了。中医里面的气也是如此。

​ 因此语义是语言的翻译不变性,而语言只是语义的符号化表达。现在你能理解为什么open AI的模型中文语料占比只有2%,但是表现能力缺超过绝大多数中文大模型了吧?(因为语义上下文一样,意思都一样,不管是什么语言)

2.3自然语言自监督学习的代理任务

为了从语料中学习语言逻辑,科学家发明了一种类似完型填空的代理任务。具体有两种形式:自编码代理任务和自回归代理任务。

自编码任务(Autoencoder LM)是的大致做法是将语句中的某些单词掩盖掉,然后利用模型去预测掩盖的单词,已达到学习目的。而自回归任务(Autoregressive LM)并不是去预测中间的某个单词,而是依据上文不断去预测下一个单词。无论是自编码任务还是自回归任务都基本上是让模型做完型填空。我们高中做完型填空的经验告诉我们,如果需要准确完成完形填空,就必须对语法结构、指代关系、行文逻辑、行文风格、常识等语言模型非常了解才行。那么反过来讲,是不是用这种代理任务,就能够迫使模型学到语言模型呢。事实上,OpenAI的联合创始人Andrej Karpathy就坚持这种观点。认为只要模型能够不断预测下一个单词,那么就代表了这个模型学习到了世界知识。但是本文作者认为这仅仅是一种假设而已,如果通过检验能够证明该假设,才代表该命题成立(假设检验的基本逻辑)。从目前大模型的表现来看,能够大部分证明该命题的正确性,但是是否模型具备世界知识还需要进一步时态发展来进一步验证。但是这个世界有不同的声音。meta首席科学家Yan Lecun就完全不同意该观点。我们静观事态发展。

2.4 视觉大模型的代理任务是否存在

​ 我们讨论完自然语言大模型的代理任务,我们再继续讨论计算机视觉问题。我今年参加了学术会议VALSE。会议的热点还是集中在大模型对视觉的启发。但是基本上的共识是当前并没有发明一种有效的纯视觉自监督代理任务。

​ 在计算机视觉领域,科学家模仿了LLM中自编码的做法,设计了一种视觉大模型代理任务MAE(Masked Autoencoders)。其具体做法入下图。它的具体做法很简答,将图像区块化,然后随机擦除掉部分区块,训练任务就是恢复出那些擦除的区块。

​ 作者寄希望于这种代理任务完成计算机视觉的自监督训练,达到LLM大模型一样的巨大作用。虽然这个模型在诸多下游任务上表现尚可,但是它有明显缺陷。

第一、 预训练大模型对于baseline很低的任务有效,对于baseline很高的任务,就很难提高了。具体见下表的验证结果。

(a)各种模型在搜索任务上的表现

第二、 无监督方法只能逼近有监督方法,而不能超越它。

第三、 它不满足大模型的scaling law。即模型的参数和训练数据的增加,并不能带来效果的线性增长。下表是预训练方法MoCo在1 million和1 billion的效果对比,效果提升很微弱。可以明显发现基本不满足LLM中表现的scaling law特性。所谓scaling law,是指模型效果应该和计算、数据、参数的增长呈现线性增长。按理说如果方法设计合理,训练集越多,网络从中可以学到更多差异信息,从而学到更好的表征。反过来说,如果模型训练不满足scaling law,说明学习任务哪里出问题了。

​ 那么MAE为什么在图像恢复表现得如此出色,而在泛化性表现得不好呢。笔者认为主要有两点原因:1. 图像恢复任务和图像理解是两回事。图像恢复只需要对图像底层像素的分布进行建模就可以了,和语义不完全相关。2. 图像本身的自解释性很难挖掘出来。因此我们尝试得出这样的结论:CV无监督预训练大模型的无法做到和NLP大模型一样,自带监督信号。所以他自然也无法取得和NLP大模型一样的突破。事实上,CV领域几乎所有的自监督方法都存在这个问题。

2.5跨模态大模型的代理任务

​ 那么有没有可能设计一个代理任务解决计算机视觉的大规模训练问题呢?答案是肯定的。科学家发明了跨模态弱监督学习任务,能够利用图像相关的文本信息来对图像特征进行学习和表征。最成功的一个工作叫做CLIP(Learning Transferable Visual Models From Natural Language Supervision)模型。他的结构很简单(如下图),它打破了传统图像分类模型的限制,不再需要人为定义标签,而是通过将文本和图像进行联合预训练,从而学习到文本和图像之间的关联关系。

​ CLIP 模型的应用非常广泛,可以用于图像文字描述、图文匹配、视频文本相关性检索等任务。它的出现,使得视觉模型的训练过程更加方便和高效,也让收集数据和推理的过程更加方便。因此,CLIP 模型被认为是视觉 - 语言多模态领域的重要基石。我们举一个实际使用的案例来说明技术发展带来生产范式改变的案例。在深度学习被广泛应用的时候,各大云厂商都推出自己的通用图像识别服务。通用图像识别服务在互联网业务中有非常重要的价值,比如广告推荐系统。过去各大厂商的图像识别范式基本上是设计巨大的标签体系,然后对每个标签收集至少1000张图片,最后训练一个分类模型。比如腾讯的标签体系就特别庞大,有360大类数万小类。准备这样一个数据集是件非常庞大的工作。然而遗憾的是,现实中的视觉概念远远超过一万。并且在不同领域对标签系统有差异化要求。如果撞库率低于50%,基本上这套标签体系就被判定不可用。现在我们用CLIP模型在10亿文本数据对上训练一个跨模态大模型来解决这个问题。这种模型因为庞大的数据,具备非常优良的泛化性。我们运用到华为云通用图像识别,并对比百度和阿里的通用图像识别的准确性和召回率。发现它的效果直接秒杀传统方法,并且应对各种项目不需要反复迭代优化。


最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值