Transformer模型之词向量：让计算机读懂人类语言的魔法-CSDN博客

本文链接：https://blog.csdn.net/2501_92003677/article/details/148067871

人类语言是复杂且充满语义的，但计算机只能处理数字。

如何让计算机“读懂”一段文字？

词嵌入（Word Embedding）技术为此提供了关键解决方案：它将词语转化为数学向量，让计算机能够捕捉词语的语义和关系。

一、词嵌入：从“文字”到“向量”的魔法

1. 什么是词嵌入？

词嵌入是一种将词语映射为低维稠密向量的技术。例如，词语“苹果”可能被表示为一个300维的向量：

v苹果=[0.21,−0.56,0.87,…,0.34]

这些向量在空间中“排列”得很有规律：语义相近的词（如“苹果”和“香蕉”）距离更近，而语义无关的词（如“苹果”和“汽车”）则距离较远。

2. 词嵌入的核心思想：

基于“分布式语义学”理论--词语的含义由其上下文决定。例如，“银行”在“河边”和“金融”语境中的含义不同，词嵌入通过分析大量文本中的共现关系，让计算机学习到这些细微差别。

二、静态词向量：预训练的“词典”

1. 什么是静态词向量？

静态词向量是预先训练好的固定向量，不依赖具体任务。常用模型包括：

2. 静态词向量的特点：

三、动态词向量：上下文感知的“活字”

1. 什么是动态词向量？

动态词向量是模型在训练过程中动态学习的向量，能根据上下文调整表示。典型模型包括：

2. 动态词向量的优势：

四、词表：连接文字与向量的“索引”

无论是静态还是动态词向量，都需要一个词表（Vocabulary）：

五、Transformer中的词嵌入：位置与上下文的结合

Transformer如何实现词嵌入？

示例：在句子“我喜欢苹果”中，“苹果”的词向量会根据上下文（如“喜欢”）动态调整，同时位置编码确保模型知道“苹果”位于句子末尾。

六、词嵌入的应用：从分类到生成

七、静态 vs 动态：如何选择？

八、未来展望：词嵌入的进化

随着大模型（如GPT-4、BERT）的发展，词嵌入技术正朝着更高效、更灵活的方向演进：

从静态的“词典式”向量到动态的“上下文感知”向量，词嵌入技术不断突破计算机与人类语言的鸿沟。无论是简单的分类任务，还是复杂的对话生成，词嵌入都是自然语言处理的“翻译密码”，让机器能够真正“读懂”人类的语言。