LLM基础模型系列：初识Embeddings

大耳朵爱学习

于 2024-08-09 09:54:40 发布

阅读量498

点赞数 5

文章标签： AI大模型语言模型大模型人工智能 LLM Embeddings 大语言模型

本文链接：https://blog.csdn.net/2401_85379281/article/details/141053901

版权

Embeddings

Embeddings会分为两个章节，前部分主要还是放在常规方法总结，后者主要放在神经网络技术。其实这个英文单词不难理解，就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题，因为可深可浅。

若要用一句话概括，就是给输入分配一个数字标识，可以是一个整数数值也可以是一个向量。不过最重要的目的是在模型训练的过程中能够高效且有效的学习参数。

这里需要解释下向量，例如apple可以使用三维的向量[0.95,0.23,-0.23]来表示，也可以使用四维的向量来表示[0.95,0.23,-0.23,0.12]，请注意下图中Embedding Dimensions这一列，不同模型的Embedding维度不一

one-hot encoding

这是一种最直观，也是最不需要动脑子的编码模式。假如有10000个对象，那么每个对象就是一个10000维的向量，朴素也暴力。例如apple这个词在第50个，那么apple对应的编码就是：10000维的向量，这个向量除了第50个为1之外，其余的数值均为0。

在这里插入图片描述

这种编码方式的缺点显而易见，One-hot编码会产生高维向量，使其计算成本高昂且占用大量内存，尤其是在词汇量较大的情况下；它不捕捉单词之间的语义关系；它仅限于训练期间看到的词汇，因此不适合处理词汇表之外的单词。

*Feature Vector*

第二种编码方式是基于特征，其实彩色图片是一种很好的例子。做过视觉学习的都知道彩色图片常见的有三种通道（三维向量），分别代表RGB（红绿蓝）。三种颜色取不同的值就可以合成任意一个位置的色块。举个例子橘色其实就可以使用orange = [1, .5, 0]来表示。说白了就是每个维度代表一种特征，然后组合起来就能代表一个输入对象。

为了加深大家的理解，上图这个例子更加直观。假如约定的编码只有4个维度，分别是“春夏秋冬”，那么上图右侧框框中的事物都可以使用下面的编码来替代。具体的意思就是这个物体是不是在四季节出现，当然学过数学组合的都知道这种编码方式只能将整个世界的对象分成16类。但是它已经开始在编码中存储对象之间的某种关系。

在这里插入图片描述

这种编码模式更加符合人脑，人类在记忆某种事物的时候其实也是某种编码，例如看到笔，一般会浮现它的形状，属性和相关的事物，例如纸张。

*Document Vector*

换个思路，假如收集了大量的文章，然后将文章里面的字词在文章中出现的次数做个标记。可以得到如下的矩阵：每一列代表着文章编号，每一行代表某个词，通过观察图片你就会发现其实traffic和network是不是有点相似，按照这个编码其实也是一种思路。

在这里插入图片描述

Co-occurrence Vector

顺着刚才的思路，其实还有一种编码的办法：可以将文章按照特定的长度进行窗口的滑动，然后统计在这个窗口里面单词之间的关联次数。下图给出例子，从其中可以发现其实data和mining还是挺相似的。这种编码的好处在于这种类型的embedding可以准确地捕获单词的使用含义（毕竟单词的含义会根据使用的时间、社区和上下文而变化）。

在这里插入图片描述

Neural Embedding

除了基于传统的统计学方法，其实可以采用神经网络来帮助自动化的抽取信息，方法很多。为了帮助大家更好的理解，这里先引入较早机器学习的一个术语，自编码器。其实它的历史很悠久，只不过到近期才被发扬光大而已。

如何理解自编码器呢，请看下图：

当输入一副图、一段语音或者一段文字的时候，通过绿色部分的神经网络，然后输出一个向量，紧接着再将这个向量输入紫色部分的神经网络，紫色部分的输出为重建之后的图、语音或者文字。最后用输出和真实值对比出差异反过来调整两个神经网络的参数。如此循环！

聪明的你一定反应过来了，要是重建之后的正确率很高的话。那么中间变量是不是经过压缩的向量，代表了原图，原语音或者原文。对了！这个就是自编码器。

那么中间的向量代表什么，其实是可以的解释。以输入“图片”为例，中间的向量有些维度描述对象特征，有些描述了材质。有人曾经做过实验，语音通过自编码器之后，中间向量有一部分代表内容，一部分代表音调。取一段中文和一段日文的语音输入编码器，然后将两个向量拆分组合，是可以重建出日语说中文。

如何用神经网络用于Embedding，下文会展开详细讲解。整体的基本思路还是在于将单词的上下文和情景信息，通过神经网络的参数训练进行编码。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

大耳朵爱学习

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
LLM基础模型系列：初识Embeddings

Embeddings会分为两个章节，前部分主要还是放在常规方法总结，后者主要放在神经网络技术。其实这个英文单词不难理解，就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题，因为可深可浅。若要用一句话概括，就是给输入分配一个数字标识，可以是一个整数数值也可以是一个向量。不过最重要的目的是在模型训练的过程中能够高效且有效的学习参数。
复制链接

扫一扫