每日最新论文包含目标检测,图像分割,图像识别检索,视觉预训练,3D/点云/视频, 图像超分/去噪,GAN/Diffusion,LLM,ImageCaptioning,VQA,视觉语言预训练,MLLM,Text2Image,OpenVocabulary,语音技术,机器人技术,增量/连续学习,自动驾驶,遥感,医学,量化/剪枝/加速,机器翻译/强化学习,NRF,Visual Counting,时序建模等方向
论文名:SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
开源代码:https://github.com/google-research/big_vision/tree/main/big_vision/configs/proj/image_text/README_siglip2.md
导读
由CLIP和ALIGN开创的在十亿级数据集上训练的对比式图像-文本嵌入模型,已成为对视觉数据进行高级语义理解的主流方法。这些模型能够实现细粒度的零样本分类,其质量可与监督方法相媲美,并能实现高效的文本到图像和图像到文本的检索。此外,当它们与大语言模型(LLM)结合构建视觉-语言模型(VLM)时,能够带来出色的视觉-语言理解能力。
简介
我们推出了SigLIP 2,这是一系列基于原始SigLIP的成功经验构建的新型多语言视觉-语言编码器。在第二次迭代中,我们将原始的图像-文本训练目标与几种先前独立开发的技术相结合,形成了一个统一的方法——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)和在线数据筛选。通过这些改进,SigLIP 2模型在所有模型规模下的核心能力方面都优于其SigLIP对应模型,包括零样本分类、图像-文本检索,以及为视觉-语言模型(VLM)提取视觉表示时的迁移性能。此外,新的训练方法在定位和密集预测任务上带来了显著的改进。我们还训练了支持多种分辨率并保留输入原始纵横比的变体。最后,我们在更具多样性的数据混合上进行训练,其中包括去偏技术,从而实现了更好的多语言理解和更高的公平性。为了让用户能够在推理成本和性能之间进行权衡,我们发布了四种大小的模型检查点:ViT - B(8600万参数)、L(3.03亿参数)、So400m(4亿参数)和g(10亿参数)。
方法与模型
我们将原始的SigLIP训练方法[71]与基于解码器的预训练方法[60, 62]相结合,此外还采用了如DINO系列工作[9, 47]中的自蒸馏和掩码预测方法(总体情况见图1)。使用语言解码器对图像编码器进行预训练以实现图像描述和指代表达理解,已被证明可以提高光学字符识别(OCR)能力和定位能力[62],而自蒸馏和掩码预测则能为密集预测任务、零样本分类和检索提供更好的特征[38, 45]。与在一次运行中结合所有这些技术不同,我们采用以下分阶段的方法,以管理与SigLIP训练相比的计算和内存开销。
图1 | SigLIP 2在SigLIP [71]的Sigmoid损失基础上,增加了来自 [62]的基于图像描述的预训练,以及来自SILC [45]和TIPS [38]的自蒸馏和掩码预测(在训练的最后20%阶段)。对于某些变体,该方法还包括使用数据筛选进行微调[61],或适应原生宽高比和可变序列长度[6, 12]。
除了训练一组模型,并在扭曲宽高比的情况下将每个模型分别适配到不同分辨率之外,我们还训练了一些变体模型,这些模型在处理图像时能像NaViT [12]一样在很大程度上保留其原始宽高比,并像FlexiViT [6]一样支持不同的序列长度。我们将这种变体称为NaFlex,详见2.4.2节。
最后,为了提高最小模型的质量,我们按照文献[61]的方法,通过主动样本选择进行隐式蒸馏来微调这些模型。
1. 架构、训练数据、优化器
在架构方面,我们采用了SigLIP [71]的架构,以便现有用户可以简单地替换编码器权重。具体来说,固定分辨率的变体依赖于带有学习型位置嵌入的标准ViT架构 [15]。我们对图像塔和文本塔使用相同的架构,但g大小的视觉编码器与So400m大小 [1]的文本编码器配对。视觉和文本表示使用MAP头(注意力池化)[69]进行池化。我们将文本长度设置为64,并使用词汇量为256k的多语言Gemma分词器 [22],在分词前将文本转换为小写。
我们使用WebLI数据集 [10],其中包含100亿张图像和120亿条替代文本,涵盖109种语言。为了在英语和多语言视觉 - 语言基准测试的质量之间取得良好平衡,我们按照文献[49]的建议,将训练图像 - 文本对的混合比例设置为90%来自英语网页,其余10%来自非英语网页。我们进一步应用文献[2]中的过滤技术,以减轻在表示和与敏感属性关联方面的数据偏差。
除非另有说明,我们使用Adam优化器,学习率为,解耦权重衰减为 [37],并将梯度裁剪到范数为1。我们将批量大小设置为,并使用带有个热身步骤的余弦调度,总共训练400亿个样本。我们的模型使用全分片数据并行策略(FSDP [72])在多达2048个TPUv5e芯片 [24]上进行训练。
2. 使用Sigmoid损失函数和解码器进行训练
在预训练的第一步,我们将SigLIP [71]与LocCa [62]相结合,简单地将这两种损失函数以相同的权重相加。与依赖对比损失函数的CLIP [50]不同,SigLIP通过将小批量中的每个图像嵌入与每个文本嵌入相结合,创建二元分类问题,并通过逻辑回归(Sigmoid损失函数)训练这些嵌入,以对匹配和不匹配的对进行分类。我们使用原始实现,具体细节请参考[71]。
对于LocCa,我们将一个带有交叉注意力机制的标准Transformer解码器连接到未池化的视觉编码器表示(在应用MAP头之前)。除了添加交叉注意力层并将层数减少一半之外,解码器的结构与文本编码器相同。除了图像字幕生成之外,LocCa还进行自动指代表达预测和基于区域的字幕生成训练。前者相当于为描述特定图像区域的字幕预测边界框坐标,而后者则是在给定边界框坐标的情况下预测特定区域的字幕。区域 - 字幕对的标注是通过首先从替代文本中提取n - 元语法,然后使用[41]中的方法进行开放词汇检测自动完成的。此外,我们使用[10]中固定的对象类别集,而不是n - 元语法。对于每个示例,解码器被训练来预测所有三个目标(相当于解码器进行三次前向传播)。字幕生成目标有50%的概率使用并行预测[60],即所有字幕标记从掩码标记并行预测,不使用因果注意力掩码。更多细节请参考[62]。最后,为了减少由于大词汇量导致的内存消耗,我们实现了解码器损失函数的分块版本。
对于所有模型规模,我们将视觉编码器的补丁大小设置为16,图像分辨率设置为256(导致图像表示序列长度为256)。最后,我们注意到解码器在这里仅用于表示学习,并非模型发布的一部分。
3. 使用自蒸馏和掩码预测进行训练
遵循SILC [45]和TIPS [38]的方法,我们在2.2节描述的训练设置基础上,增加了带有自蒸馏和掩码预测损失函数的局部到全局对应学习,以改善(未池化)特征表示的局部语义。这种表示通常用于密集预测任务,如分割、深度估计等。具体来说,我们在2.2节描述的损失函数中添加了两项,详细内容如下。
第一项损失是来自文献[45]的局部到全局一致性损失,在该损失中,视觉编码器作为学生网络,它获取训练图像的部分(局部)视图,并被训练以匹配从完整图像得到的教师网络的表征。这个辅助匹配任务是在一个由单独的多层感知机(MLP)头计算得到的高维特征空间中执行的。正如文献中常见的那样,教师网络的参数是学生网络参数在前几次迭代中的指数移动平均(EMA)。我们采用一个全局(教师)视图和8个局部(学生)视图,其他方面遵循文献[45]中的数据增强、损失函数和超参数设置。
第二项损失是来自文献[38]的掩码预测目标。我们用掩码标记替换学生网络中50%的嵌入图像块,并训练学生网络在掩码位置匹配教师网络的特征。该损失的定义与第一项(一致性损失)相同,但应用于每个图像块的特征,而不是池化后的图像级表征。此外,学生网络和教师网络看到的是相同的全局视图(学生网络存在掩码操作)。
我们在训练完成80%时加入这些损失,用学生网络的参数初始化教师网络,并随机初始化其余的额外参数(头、掩码标记和相应的优化器参数)。我们使用原始图像来计算上一节中的SigLIP和LocCa损失,并在额外的增强视图上应用这些额外的损失。这样做是为了确保数据增强不会像文献[45]所建议的那样对图像 - 文本对齐产生负面影响。第一项和第二项损失的权重分别设置为1和0.25。此外,为了平衡模型在全局/语义任务和密集任务上的质量,对于B、L、So400m和g模型大小,我们分别以0.25、0.5、1.0和0.5的系数对这两项损失进行重新加权。
4. 适应不同分辨率
4.1. 固定分辨率变体
为了在多个分辨率下获得固定分辨率的检查点,我们在训练进行到95%时恢复检查点(序列长度为256,图像块大小为16),将位置嵌入调整为目标序列长度(在某些情况下,使用文献[6]中的伪逆(PI)调整策略将图像块嵌入从大小16调整为14),并在目标分辨率下使用所有损失继续训练。我们选择这种方法是因为常见的以较小学习率微调最终检查点且不进行权重衰减的策略[71]在所有模型大小和分辨率下都没有取得良好的效果。
4.2. 可变纵横比和分辨率(NaFlex)
NaFlex结合了FlexiViT [6]和NaViT [12]的思想,前者即使用单个视觉Transformer(ViT)模型支持多个预定义的序列长度,后者是指以图像的原始纵横比处理图像。这使得能够以适当的分辨率处理不同类型的图像,例如使用更高的分辨率处理文档图像,同时最大程度减少纵横比失真对某些推理任务(如光学字符识别(OCR))的影响。
给定一个图像块大小和目标序列长度,NaFlex首先对输入图像进行调整大小,使调整后的高度和宽度是图像块大小的倍数,同时1) 尽可能减小纵横比失真,2) 生成的序列长度最多为所需的目标序列长度。调整后宽度和高度的失真分别最多为(图像块大小 - 1)/宽度和(图像块大小 - 1)/高度,对于常见的分辨率和纵横比,这种失真往往较小。请注意,NaViT也会产生相同类型的失真。调整大小后,图像被分割成一系列图像块,并添加图像块坐标以及包含填充信息的掩码(以处理实际序列长度小于目标长度的情况)。
为了使用ViT处理不同的序列长度(和纵横比),我们对学习到的位置嵌入进行双线性调整大小(使用抗锯齿),以适应调整大小后的输入图像的目标非方形图像块网格。我们将学习到的位置嵌入的长度设置为256,假设调整大小前的图像块网格为16 × 16。当调整大小后的序列长度小于目标序列长度时,注意力层(包括最大后验(MAP)头)会被掩码,以忽略额外的填充标记。
对于固定分辨率的适配变体,我们从第2.2节所述设置下训练的默认检查点开始,即不保持纵横比地将图像调整为,得到序列长度为256。我们选取训练完成90%时的检查点,然后切换到保持纵横比的调整大小方式,并为每个小批量从中均匀采样一个序列长度。同时,我们将对应最后10%训练的学习率调度拉伸3.75倍,以确保每个分辨率都有足够多的样本进行训练。对于最大的序列长度,我们进一步将批量大小减半,并将训练步数加倍,以避免内存不足错误。
为了使实现和计算复杂度可控,我们不应用第2.3节中的自蒸馏和掩码预测方法。
5. 通过主动数据筛选进行蒸馏
为了使最小的固定分辨率模型(ViT - B/16和ViT - B/32)性能最大化,我们在一个短的微调阶段从教师(参考)模型中蒸馏知识。我们将学习率降至,去除权重衰减,并仅使用Sigmoid图像 - 文本损失继续对这些模型进行额外4B个示例的训练。在此阶段,我们使用文献[61]中提出的ACID方法进行隐式的“通过数据进行蒸馏”。简而言之,在每个训练步骤中,教师模型和当前学习模型用于根据示例的“可学习性”[42]对其进行评分。然后使用这些分数从一个更大的超级批次[16]中联合选择一个大小为的最优批次。在这里,我们选择过滤比例为0.5(即超级批次大小为64k)的数据,以平衡筛选带来的收益和训练计算量。对于B/32模型,我们发现使用0.75的过滤比例所带来的额外成本是值得的。
我们注意到文献[61]的作者建议,使用ACED(一种将ACID与显式Softmax蒸馏相结合的方法,使用在更多样化数据上训练的第二个教师模型)可实现最佳性能。然而,在这里我们提出了一种调整ACID的方法,无需显式蒸馏即可获得这些益处,从而节省大量计算资源。具体来说,我们没有使用两个单独的教师模型,而是采用一个在多样化数据上训练的强大教师模型(在这种情况下,即SigLIP 2 So400m模型),并在文献[16]中的高质量筛选数据集上对其进行个示例的微调。然后,我们如上文所述,在ACID方法中使用这个微调后的教师模型。由于这个教师模型融合了预训练中概念的多样化知识和高质量数据(来自筛选数据集)的知识,仅ACID的隐式蒸馏就足以获得ACED的益处。
实验与结果
1. 零样本分类与检索
在表1中,我们报告了SigLIP 2以及基线模型在常见零样本分类(ImageNet [13]、ObjectNet [4]、ImageNet-v2 [53]、ImageNet ReaL [5])和图像 - 文本检索基准测试中的性能。尽管与基线模型(除mSigLIP [71]外)不同,SigLIP 2支持多种语言,但它在所有测试中都比SigLIP和其他(开放权重)基线模型表现更好。请注意,在这些基准测试中最接近SigLIP 2的DFN [19],使用在ImageNet、COCO和Flickr(即表1中的主要基准数据集)上微调的网络作为过滤器来提高数据质量。由于蒸馏(第2.5节),SigLIP 2相对于基线模型的改进在B尺寸模型中尤为显著。此外,我们观察到了随图像分辨率和模型大小变化的常见缩放趋势。
图2 | SigLIP、SigLIP 2和mSigLIP在Crossmodal - 3600 [58]上的每种语言的图像 - 文本检索性能。尽管SigLIP 2在英语视觉 - 语言任务上的表现明显更好(表1),但其性能几乎与mSigLIP(在多语言数据上训练的SigLIP)相当。
表1和图2进一步展示了在涵盖36种语言的Crossmodal - 3600(XM3600)[58]上的多语言检索性能。SigLIP 2的召回率大幅超过SigLIP,仅略微落后于mSigLIP,而mSigLIP在以英语为主的基准测试中的表现又远不如SigLIP和SigLIP 2。
1.1. NaFlex变体
图3比较了固定分辨率正方形宽高比(标准)的SigLIP 2与保持宽高比的NaFlex变体(所有序列长度使用一个检查点)随序列长度的变化情况。除了上一节列出的检索基准外,我们还增加了一系列专注于OCR/文档/屏幕的图像 - 文本基准,即TextCaps [55]、Hier - Text [36]、SciCap [26]和Screen2Words [63]。在这些检索基准中的大多数上,NaFlex变体的表现优于标准变体,特别是对于小序列长度(因此分辨率也较低)的情况,这类情况往往更容易受到宽高比失真的影响。在主要基于自然图像的基准上,标准B尺寸变体的表现优于NaFlex,这可能得益于蒸馏步骤,而对于So400m架构,两者表现相当。这很值得注意,因为标准变体也受益于自蒸馏阶段(第2.3节)。
图3 | 比较NaFlex(每个模型大小有一个支持原生纵横比和可变序列长度/分辨率的检查点)和标准方形输入的SigLIP 2变体(每个序列长度/分辨率使用单独的检查点)。轴上标注的序列长度对应于NaFlex的训练序列长度。NaFlex在训练分辨率之间的插值效果相当好,但外推效果不佳(未展示)。
2. SigLIP 2作为视觉语言模型(VLM)的视觉编码器
像CLIP和SigLIP这样的视觉编码器的一个常见用例是为视觉语言模型(VLM)提取视觉表征 [3, 7, 32, 35, 39, 48, 59]。常见的范式是将预训练的视觉编码器与预训练的大语言模型(LLM)相结合,并在丰富的视觉语言任务混合数据集上进行多模态训练。为了评估SigLIP 2在此应用中的性能,我们开发了一个类似于PaliGemma 2 [56]的方案。具体来说,我们将SigLIP 2视觉编码器及其基线模型与Gemma 2 2B大语言模型 [23]相结合,并在来自 [7, 56]的第一阶段训练混合数据集中的5000万个示例上训练大语言模型,这些示例涉及图像描述、OCR、基于上下文的图像描述、视觉问答、目标检测和实例分割(后4个任务的标注是机器生成的,详情见 [7, 第3.2.5节])。我们保持视觉编码器冻结(这对质量基本上没有影响 [7, 第5.4节]),并缩短训练时间以反映典型的开放模型用例。然后,使用 [56]中的迁移设置,在广泛的下游任务上对得到的视觉语言模型进行微调。为了了解输入分辨率的影响,我们在分辨率为224或256(分别对应于块大小为14和16的模型,以提取256个图像标记)以及 的条件下进行实验,但与 [7, 56]不同的是,我们在384像素分辨率下重复第一阶段的训练,而不是从 变体开始。
图4 | 在使用冻结的视觉编码器对Gemma 2大语言模型进行5000万步训练(PaliGemma [7]的第一阶段),然后在各个数据集上对视觉语言模型进行微调(PaliGemma的第三阶段)后,不同视觉编码器的比较。对于不同的模型大小和分辨率,SigLIP 2的表现优于SigLIP和AIMv2 [20]。数据与表6相同。
图4展示了每个数据集微调后的结果。总体而言,在不同分辨率和模型大小下,SigLIP 2明显优于SigLIP。对于L大小的视觉编码器,SigLIP 2也优于最近发布的AIMv2模型 [20]。图4中的数据也可在表6中找到。
3. 密集预测任务
3.1. 语义分割、深度估计、表面法线估计
我们采用文献[38]中的评估协议,在涵盖语义分割、单目深度估计和表面法线估计的六个基准测试上,使用线性层或DPT解码器 [52] 探究冻结的SigLIP 2表征(有关协议和超参数的详细信息,请参阅文献[38,第4.1节])。注意,我们进行了一项(必要的)更改:原方法将分类标记(CLS token)连接到每个图像块特征向量上,而我们使用的是最大后验(MAP)头而非分类标记,因此我们连接的是最大后验头的输出嵌入。表2中的结果表明,SigLIP 2的表现优于之前的几种开放的CLIP风格视觉编码器,包括SigLIP,且往往领先幅度显著。
3.2. 开放词汇分割
开放词汇分割旨在开发能够分割固定训练词汇之外任何新类别的模型。在这里,我们评估SigLIP 2在这项任务上的性能。我们使用Cat-Seg [11]作为框架,并按照[45]中提出的方法比较不同模型的性能。我们在包含172个类别的COCO-Stuff-164k [8]数据集上训练Cat-Seg,然后在具有不同词汇表的各种代表性数据集上进行测试:包含847或150个类别的ADE20k [73, 74](A-847/A-150)、Pascal Context(PC-459/PC-59)[43]和Pascal VOC(VOC-20/VOC-21)[17]。结果见表3。我们观察到,L/16版本的SigLIP 2在性能上优于SigLIP,甚至超过了大得多的OpenCLIP G/14模型[27]。
4. 定位任务
4.1. 指代表达理解
为了探究SigLIP 2在不同RefCOCO变体上的指代表达理解能力,我们采用了[62]中的评估协议。我们通过交叉注意力将一个6层的Transformer解码器连接到未池化的、冻结的视觉编码器表示上,并在所有RefCOCO变体的混合数据集上从头开始训练它(详情见[62])。表5中的结果显示,在不同分辨率和模型大小下,SigLIP 2的性能大幅优于SigLIP、CLIP以及通过图像字幕预训练(Cap)的模型。这可以归因于基于解码器的预训练,如第2.2节所述。SigLIP 2仅在性能上逊于LocCa,我们推测这可能是因为SigLIP 2是在多语言数据上进行预训练的。另一方面,LocCa仅在英文网站的文本上进行训练。最后,请注意,正如在中观察到的那样,我们预计在使用预训练的解码器时会有显著的性能提升。
4.2. 开放词汇检测
OWL - ViT [40]是一种将CLIP风格的视觉 - 语言模型应用于开放词汇检测的常用方法。在这里,我们将这种方法应用于SigLIP和SigLIP 2模型,并严格遵循[40]中的数据和优化器配置。表4中的结果显示,在两个常用基准数据集COCO [34]和LVIS [25]上,SigLIP 2的性能优于SigLIP。在LVIS稀有类别上,相对改进最为明显。此外,这里的结果比[40]中的结果更好,这可能是因为[40]使用的是CLIP而不是SigLIP。
5. 文化多样性与公平性
除了与前代模型相比,SigLIP 2在模型质量上有所提升外,它在两个方面也更具包容性。首先,我们遵循[49]的建议,采用包含英语和多语言数据的训练混合数据来增强文化多样性。其次,为了解决训练数据中潜在的社会偏见问题,我们整合了[2]中的数据去偏技术。这些技术用于减轻一阶统计量(如性别代表性差异)和二阶统计量(如性别与职业之间的偏见关联)中的偏差。接下来,我们展示评估结果。
文化多样性 为了评估文化多样性,我们报告了使用美元街数据集(Dollar Street)[54]、地理多样性数据集(GeoDE)[51]和谷歌地标数据集v2(GLDv2)[65]的零样本分类准确率结果。我们还纳入了如文献[49]所提出的,使用美元街数据集和地理多样性数据集的10样本地理定位。对于美元街数据集的零样本评估,我们采用了文献[54]中概述的方法,将数据集中的96个主题映射到相应的ImageNet类别。这一过程为我们的分析得到了一个包含张图像的子集。
图5展示了一组代表性结果(完整结果见附录C)。我们观察到,在相同的模型大小和分辨率下,与SigLIP相比,SigLIP 2在这些指标上有所提升,并且在地理定位任务中的提升尤为显著。例如,地理多样性数据集(区域)的10样本地理定位准确率从256像素下SigLIP L/16的36.2%提高到了SigLIP 2的44.4%。同样,在相同模型下,美元街数据集的零样本准确率从52.1%提高到了55.2%。
公平性 在公平性方面,我们报告了两个指标。第一个是文献[2]中定义的“表征偏差”,它衡量模型将随机对象(如汽车)与特定性别群体关联的倾向。如图6所示,SigLIP 2明显优于SigLIP。SigLIP 2:具有改进的语义理解、定位和密集特征的多语言视觉 - 语言编码器 例如,256像素下的SigLIP L/16的表征偏差约为35.5%,这意味着它超过85.5%的时间更倾向于将随机图像与“男性”而非“女性”关联,而相同大小和分辨率的SigLIP 2的表征偏差仅为7.3%。此外,与文献[2]早期的研究结果一致,较大的模型往往比较小的模型表现出更小的表征偏差。
我们还按照[49]的方法,分别按收入水平研究了Dollar Street零样本结果,按地理区域研究了GeoDE结果。然而,在这种情况下,当比较大小和分辨率匹配的SigLIP和SigLIP 2模型时,我们只观察到非常小的优势,甚至没有优势(表9中展示了一些结果)。
总结
在这项工作中,我们推出了SigLIP 2,这是一系列基于SigLIP的成功经验构建的开放权重多语言视觉 - 语言编码器。通过结合基于解码器的预训练、自监督损失和主动数据筛选等技术,SigLIP 2在零样本分类、作为视觉语言模型(VLM)中的视觉编码器的迁移性能以及定位和密集预测任务方面取得了显著改进。此外,由于在多语言数据上进行训练并应用去偏滤波器,SigLIP 2在不同文化的数据上实现了更均衡的质量。最后,NaFlex变体使模型能够通过单个模型检查点支持多种分辨率,同时保留原始图像的宽高比。我们希望我们发布的SigLIP 2能在开源社区中催生许多令人兴奋的应用。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。