局部余弦相似度大,全局余弦相似度一定也大吗?

6d9e2e1f374f370b87d1ca16ce0d2787.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个 7B 大小的 LLAMA 模型所拥有的 70 亿参数量,有时候我们会将它当成“一个 70 亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个 1 维向量”

既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。

ff40c822b23a94a8fc199f73f9cca226.png

问题背景

这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:

c8ae366954a8f257fbc0c4c8b9474e39.png

其中 是某个指定更新方向(的负方向)的向量。此时泰勒展开到一阶有

9c20ddfab549af8e15bee480637c6d52.png

这里的 就是梯度 ,所以说,损失函数的变化量近似为

5a5632d3e02ea325b5b170de87e91100.png

所以笔者想到了观察一下 与 的余弦相似度,即更新向量与梯度的方向一致性。

但问题来了,正如本文开头所说,模型的参数有不同的拆分方式,我们是将模型所有参数当成一个大向量来算更新向量与梯度的余弦(全局),还是每一层、每个参数单独来算(局部)?笔者两者都做了,并且对局部余弦做了截断(保证每个参数对应的更新向量与梯度的余弦大于某个正阈值),然后发现全局居然小于该阈值。初见之下感觉比较意外,于是简单分析了一番。

dd072b333ff5f19e5638d5f26f4e3915.png

简单分析

现在问题抽象为:

假如两个向量的局部余弦相似度都不小于 ,那么这两个向量的全局余弦相似度一定不小于 吗?

答案大家已经知道了,是否定的。否定只需要举一个反例,假设 ,很明显 ,所以,但是它们的子向量——也就是每个分量——都是正数,正数作为一维向量,它们的余弦相似度都是 1,所以我们就得到了一个局部余弦相似度全是 1、全局相似度小于 1 的反例。

更一般的分析,我们可以设 ,那么

b26cf2d819d565f2cbb5482e83e00738.png

如果让 , 保持大于零不动(不失一般性,可以设 ),那么可以得到 ,那就是说,不管 和 多大,总有一种情况可以让 无限接近于 0,即无法通过 和 来让 有下界。

至于上界,则可以证明:

393b8c27b3bc9877e0d644ea61990057.png

证明其实也很简单,因为这个界很松。不失一般性假设 ,那么根据式(4)有

48ab17ce925d70c8357c30789b5d5318.png

方括号部分,其实正好是二维向量 和 的余弦相似度,所以它必然不大于 1,于是有 ,这就证明了不等式(5)。

(再次强调,以上证明都是在 的假设下完成的,如果存在小于 0 的情况,则结论可能需要稍加改动。)

8aceb6c8a597425e442d54bf8b248a7b.png

相关悖论

以上结果有什么更现实的对应吗?有,将它放到相关性分析中,就引申出了著名的“辛普森悖论(Simpson's paradox)”[1]。

我们知道,有个衡量线性相关性的系数叫做“皮尔逊系数(Pearson Coefficient)”,定义为

c0eff00df0487aabdca83d481262f56e.png

再认真观察一下,如果我们记 ,那么上式不就是

d9970f424862be90b71666f4463929b6.png

所以,皮尔逊相关系数其实就是数据点减去均值之后的余弦相似度。既然有了余弦相似度,那么上一节的结果就能用过来了,直接结论就是即便两批数据都是明显的线性相关(),合起来之后也可能是线性无关的()。

而“辛普森悖论”说的更彻底一些,说的是每一批数据都是正相关,合起来不仅可能是线性无关,还可能是负相关,这是因为相关系数相比单纯的余弦相似度多了个 参数,可调的自由度更大。几何图像也非常直观,比如下图:

c4a374393741fc8b370f62c0fd0ba980.png

▲ “辛普森悖论”直观图像

上图中,蓝色数据完全在同一条直线上,而且斜率为正,所以相关系数为 1,红色数据也是如此,它们在自己的批次内都是“完全正线性相关”。但是将数据合起来后,如果非要用一条直线拟合,那么只能是虚线,而且斜率为负,即变成了负相关。这就构成了“辛普森悖论”的一个经典例子。

79c04b1cb728d2316d7a1f9fb1bd38ee.png

文章小结

本文简单讨论了高维向量的局部余弦相似度与全局余弦相似度之间的关系,并进一步讨论了与之相关的“辛普森悖论”。

outside_default.png

参考文献

outside_default.png

[1] https://en.wikipedia.org/wiki/Simpson%27s_paradox

更多阅读

3f75d22c487df78327c02b2cd461eece.png

ccafeb441cd7450dbe2726f765d495c5.png

3474d14d4102154bb41e5a30a6403be6.png

d531d5de313a1f4886bc2427bcc9b2ab.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

ae3b904dfa97cb6c9d23df5bd9a95ff8.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

caa23c33b0a32fbd06702a4a31e6da88.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值