【Token系列】03 | 为什么“高兴”接近“开心”?Embedding空间中的语义分布揭秘

文章目录

  • 03 | 为什么“高兴”接近“开心”?Embedding空间中的语义分布揭秘
    • 一、语义如何转化为空间?
    • 二、向量空间中的“靠近”是怎么来的?
    • 三、词义相近与空间距离的映射关系
      • 在 embedding 空间中:
    • 四、结构几何的语义美感
    • 五、视觉示例:语义空间聚类图
    • 六、实际应用场景举例
    • 七、总结

03 | 为什么“高兴”接近“开心”?Embedding空间中的语义分布揭秘

副标题:token在语义空间的“站位规则”与几何解释

一、语义如何转化为空间?

GPT模型并不能直接理解“高兴”或“开心”的情感含义,它所能做的,是通过训练数据中上下文共现的统计规律,在高维空间中学习这些词的“位置关系”。这些位置(即embedding向量)会自然聚集出语义相似的簇。—

二、向量空间中的“靠近”是怎么来的?

以以下语料为例:

他今天很高兴。 她回家非常开心。 大家都感到无比快乐。

模型观察到这些句子具有相似结构和上下文,那么:

  • “高兴”、“开心”、“快乐”常在相似位置出现;
  • 它们的 token 向量在训练中会收到相似的误差信号;
  • 结果是:它们在高维空间中向同一方向收缩靠近

这种过程无需人工标注,模型仅通过统计+梯度优化自组织出了语义结构


三、词义相近与空间距离的映射关系

在 embedding 空间中:

词语对欧式距离(示意)语义解释
高兴 - 开心0.13同义词,语境高度重合
高兴 - 生气0.57情感相反
高兴 - 苹果0.89语义无关

距离越近,表示模型越容易在语境中“互换”这些词。


四、结构几何的语义美感

Embedding 向量不是随机分布,而具有以下几何规律

  • 情感维度聚类:喜怒哀乐分别形成不同语义子空间;
  • 时态变形方向一致:如 walk → walked → walking 向量差值近似一致;
  • 语言结构映射方向:如 man → woman 与 king → queen 的差向量近似。

这种结构性,是语言统计规律通过模型训练自动浮现的产物。


五、视觉示例:语义空间聚类图

可参考下图所示的词向量空间分布(使用 t-SNE 降维):

Embedding可视化

同类词语明显在同一区域形成语义簇,如:

  • 喜悦类:“高兴”、“开心”、“快乐”、“愉快”
  • 悲伤类:“伤心”、“悲伤”、“难过”
  • 时间类:“今天”、“明天”、“昨天”

六、实际应用场景举例

  1. 文本相似度计算
    “我很高兴”和“我很开心”可以在语义空间中余弦相似度极高;

  2. 同义词推荐
    自动推荐表达替换,不依赖人工词典;

  3. 语义搜索系统
    用户搜索“悲伤”,可返回带“难过”的语句。


七、总结

Embedding 空间不是黑箱,而是有秩序、有几何结构的语义地图
GPT 模型正是借助这张地图,在“看起来只是数字”的世界中,建立了强大的语义认知能力。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值