写给非机器学习人员的 embedding 入门

我爱学AI

于 2024-08-15 10:22:10 发布

阅读量572

点赞数 15

文章标签：机器学习 embedding easyui 大语言模型人工智能 RAG 计算机技术

本文链接：https://blog.csdn.net/python1234_/article/details/141215467

版权

你好，我自我介绍一下，多年大厂经验，努力构建通俗易懂的、好玩的编程语言教程。欢迎关注！你会有如下收益：

了解大厂经验
拥有和大厂相匹配的技术等

希望看什么，评论或者私信告诉我！

一、背景

目前在实现 NL2SQL 就是将人的自然语言通过 LLMs 的一系列处理，在这个过程中，会把文本向量化后存储到向量数据库中，然后通过向量搜索，这个过程中发现文本 embedding 后，通过向量化搜索效果很是惊人，就跟程序能读懂人的语言一样。于是对 embedding 产生了兴趣

二、什么是 embedding

embedding 是自然语言处理 (NLP)中的一种变革性技术，它改进了机器理解和处理人类语言的方式。其将原始文本转换为数字向量，让计算机更好地理解它。

因为计算机只能用数字思考，无法独立理解人类的语言。借助文本嵌入，计算机可以更轻松地阅读、理解文本，并对查询提供更准确的响应。

下图可以更加形象的理解：在这里插入图片描述
embedding 是一种将文本中的单词或短语转换为机器可以理解的数字数据的方法。可以将其视为将文本转换为数字列表，其中每个数字都表示文本的一部分含义。这种技术可以帮助机器掌握单词之间的上下文和关系。

三、为什么需要 embedding

embedding 在机器学习和自然语言处理中的重要性主要体现在以下几个方面：

3.1 降维处理

高维数据问题：原始数据通常是高维的，处理高维数据会导致计算复杂性增加，且容易出现“维度灾难”。
低维表示：通过 embedding，可以将高维数据映射到低维空间，减少计算负担并提高处理效率。

3.2 捕捉语义关系

相似性表示：embedding 能够将语义相似的对象（如词语或图像）映射到相近的向量，使得相似性度量变得直接和有效。
保留上下文信息：在自然语言处理中，embedding 可以反映词语的上下文关系，从而更好地理解词语的含义。

3.3 更好的特征表示

稠密表示：与传统的独热编码（one-hot encoding）相比，embedding 提供了更稠密且具备语义信息的特征表示。
泛化能力：通过将数据映射到语义空间，模型能够在新数据上具有更好的泛化能力。

3.4 提高计算效率

向量运算：在低维空间中，可以快速进行向量之间的计算（如点积、余弦相似度等），提高模型的响应速度。
简化算法：使用 embedding 的模型通常比传统方法更简单且易于训练。

3.5 适应性强

多领域应用：embedding 可以广泛应用于文本、图像、音频等多个领域，具有很强的适应性。
模型可扩展性：可以轻松地将新的数据嵌入现有的 embedding 空间。

四、emdedding 原理

embedding 的原理主要基于将高维数据映射到低维空间的技术，以下是其核心概念和原理：

4.1 向量空间模型

基本思想：将每个对象（如词、句子或图像）表示为一个向量，在一个稠密的、低维的向量空间中，这些向量能够反映对象之间的相似性和关系。

4.2 训练方法

无监督学习：embedding 通常通过无监督学习算法进行训练，这使得模型能够从大量数据中学习各个对象之间的隐含关系，而无需人工标注。

4.3 常用算法

Word2Vec：
- Skip-Gram：通过预测上下文中的词来学习词向量。
- CBOW（Continuous Bag of Words）：通过上下文词预测中心词。
GloVe（Global Vectors for Word Representation）：
- 基于词共现矩阵，通过优化目标函数，捕获全局统计信息。
FastText：
- 在词的基础上考虑了子词（n-grams），提高了对未登录词的处理能力。

4.4 相似性度量

欧几里得距离和余弦相似度：在 embedding 空间中，可以使用这些度量方法来计算对象之间的相似性。相似的对象在向量空间中距离较近。

4.5 特征学习

隐含特征：通过 embedding，模型能够自动学习到数据的隐含特征，并将其压缩到一个低维度的表示中，提高了计算效率和模型性能。

4.6 利用上下文

上下文信息：通过训练时考虑上下文，embedding 能够捕捉到词义的多义性和词与词之间的关系，从而获得更准确的表示。

五、embedding 应用场景

embedding 的应用场景非常广泛，主要包括以下几个领域：

1. 自然语言处理（NLP）

词嵌入：使用像 Word2Vec、GloVe 或 FastText，将词转换为向量，捕捉词的语义关系。
情感分析：通过文本的向量表示，分析文本情绪和态度。
机器翻译：将源语言和目标语言的句子转化为向量，以提高翻译质量。

2. 推荐系统

用户和物品嵌入：将用户和商品映射到同一向量空间，通过计算相似性进行个性化推荐。
协同过滤：使用用户与物品之间的嵌入表示，挖掘潜在的推荐关系。

3. 计算机视觉

图像嵌入：利用卷积神经网络（CNN）将图像转换为向量，进行相似图像检索、分类等。
人脸识别：将人脸图像嵌入到向量空间，用于身份验证。

4. 图结构数据

图嵌入：将节点的特征和结构信息嵌入到低维空间，处理社交网络、知识图谱等问题。
社区检测和图分类：通过节点嵌入，识别社交网络中的社群结构。

5. 生物信息学

基因和蛋白质嵌入：将生物序列转换为向量，进行基因功能预测、药物发现等。

6. 音频处理

音频嵌入：将音频信号转换为向量表示，用于音频分类、语音识别和音乐推荐。

7. RAG

向量化：基于大模型的向量化

embedding 技术能够在许多领域提供有效的数据表示，增强模型的性能，并提高计算效率。它在自然语言处理、计算机视觉、推荐系统以及生物信息学等多个领域都有重要应用。

六、embedding 使用

这里我们用 huggingface m3e-base 模型的例子

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('moka-ai/m3e-base')

#Our sentences we like to encode
sentences = [
    '* Moka 此文本嵌入模型由 MokaAI 训练并开源，训练脚本使用 uniem',
    '* Massive 此文本嵌入模型通过**千万级**的中文句对数据集进行训练',
    '* Mixed 此文本嵌入模型支持中英双语的同质文本相似度计算，异质文本检索等功能，未来还会支持代码检索，ALL in one'
]

#Sentences are encoded by calling model.encode()
embeddings = model.encode(sentences)

#Print the embeddings
for sentence, embedding in zip(sentences, embeddings):
    print("Sentence:", sentence)
    print("Embedding:", embedding)
    print("")

七、总结

Embedding技术显著改善了机器对自然语言的理解能力，通过将高维文本数据转换为低维向量，计算机能够更有效地处理和响应人类语言。它的多领域适应性和强大的特征表示能力，使其在现代AI应用中扮演了至关重要的角色。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

我爱学AI

关注

15
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
写给非机器学习人员的 embedding 入门

embedding 是自然语言处理 (NLP)中的一种变革性技术，它改进了机器理解和处理人类语言的方式。其将原始文本转换为数字向量，让计算机更好地理解它。因为计算机只能用数字思考，无法独立理解人类的语言。借助文本嵌入，计算机可以更轻松地阅读、理解文本，并对查询提供更准确的响应。下图可以更加形象的理解：embedding 是一种将文本中的单词或短语转换为机器可以理解的数字数据的方法。可以将其视为将文本转换为数字列表，其中每个数字都表示文本的一部分含义。这种技术可以帮助机器掌握单词之间的上下文和关系。
复制链接

扫一扫