Transformer中深度学习技术前提的动态展示

最新推荐文章于 2024-10-04 05:48:08 发布

爱喝白开水a

最新推荐文章于 2024-10-04 05:48:08 发布

阅读量1k

点赞数 19

文章标签：深度学习 transformer 人工智能 ai大模型自然语言处理 embedding LLM

本文链接：https://blog.csdn.net/python123456_/article/details/141672488

版权

机器学习

机器学习是一种方法论，它涉及到使用数据来指导模型的行为模式。

具体来说，可能是需要一个函数，输入一张图片，输出对应的标签描述，或者预测给定文本片段的下一个单词，或者其他需要直觉和模式识别的任务，虽然现在已经习以为常，机器学习的核心思想在于不再尝试去编写固定的程序来完成这些任务，这是在 AI 的最早阶段人们会做的事情。

国内外AI大语言模型API价格对比 aigcrank.cn

模拟直觉

构建一个具有可调节参数的灵活结构，就像一系列的旋钮和调节器，然后通过大量实例输入和期望输出的学习，调整和微调参数的值，以此来模拟这种直觉行为。

比如，可能最直观的机器学习入门模型就是线性回归了，这里你把输入和输出都视为单个数字，如房子的面积和价格，你要做的，就是找出一条最拟合这些数据的直线，以此来预测将来的房价。这条线由两个连续的参数，即斜率和 y 轴截距。线性回归的目标就是确定这些参数以尽可能匹配数据。

GPT 系统提示词

不用说，深度学习模型会更复杂。比如GPT-3 就拥有1750亿个参数，而不仅仅是两个。但值得注意的是，并不是简单地构建一个参数众多的庞大模型就能有效工作，这样做可能会导致模型严重过拟合训练数据，或者训练起来极其困难。

反向传播

深度学习涵盖了一系列在过去几十年里证明了具有出色扩展能力的模型类别。它们之所以能够成功，关键在于都采用了前面章节已经介绍过相同的训练算法：即反向传播。

需要理解的是，要让这种训练算法能在大规模应用中顺利进行，模型必须遵循一种特定的结构。如果你对这种结构有所了解，就能更好地理解 Transformer 处理语言的方式及其背后的逻辑，否则某些设计选择可能显得有些随意。

Embedding 向量的直观表示

数字—概率

首先不管构建的是哪种模型，输入都必须是一个实数数组。这可能只是一个数字列表，也可能是一个二维数组，或者更常见的是更高维度的数组，这种通用的术语称之为张量。

这些输入数据通常会被逐步转换成多个不同的层，每一层都构成了实数数组，直到最后一层，你可以将其视为输出层。例如，文本处理模型的最终输出层是一个数字列表，这些数字代表了所有可能的下一词汇的概率分布。

张量—概率

在深度学习领域，这些模型的参数通常被称作权重。这样称呼的原因是，这些模型的一个核心特点是这些参数与正在处理的数据之间的唯一交互方式就是通过权重和。

虽然模型中也会穿插一些非线性函数，但它们并不依赖于这些参数。通常来说不会直接看到这些权重和的裸露形式，而是会发现它们被作为矩阵向量乘积的不同部分封装起来。这其实是在表达同一种概念：可以回想一下矩阵向量乘法是如何运作的，输出中的每一部分都像是一个权重和。

Transformer模型架构

GPT-3

更直观的方式是，将这些可调参数填充的矩阵想象成对处理中数据进行向量转换的工具。例如GPT-3中的那1750亿个权重就被组织在大约 28,000个不同的矩阵中。这些矩阵又被分为八个不同的类别，将要做的就是逐一理解这些类别，了解每种类型的功能。

插图 William Matthew

接下来的过程会非常有趣，将参考GPT-3的具体数据来统计这1750亿是如何分配的。即使现在有更大更好的模型，GPT-3模型仍具有独特的魅力，作为第一个引发全球关注的大语言模型，影响力并未局限于机器学习社区。实际上对于更现代的模型，公司往往对具体的数据保持更严格的保密。

矩阵&&向量

当深入探索像ChatGPT这样的工具的内部机制时，会发现几乎所有的计算过程都体现为矩阵和向量的乘积。

多层感知机（multi-layer perceptron）

在这海量的数字中，很容易迷失方向，但你需要在心中清楚地区分两个概念：模型的权重（用蓝色或红色表示）和正在处理的数据（用灰色表示），权重就是模型的"大脑"。

这些是在训练过程中学习到的，它们决定了模型的行为模式。正在处理的数据仅仅是编码了某次操作中模型接收的具体输入，比如一段文本示例。

文本提示

小结—Tokens

理解了上述基础知识后，是探讨文本处理示例的第一步：将输入分割成小片段，并将这些片段转换成向量。

之前提到过，这些小片段被称为Tokens，它们可能是单词的一部分或是标点符号，但在本章和在下一章中倾向于简化理解，假设它们完整地对应于单词。因为人类用单词来思考，通过参考小例子和解释每一步可以使这个过程更加容易理解。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

爱喝白开水a

关注

19
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫