Johnson–Lindenstrauss Lemma

Johnson–Lindenstrauss引理

https://spaces.ac.cn/archives/8679

引理:给定 ϵ > 0 \epsilon>0 ϵ>0 随 机 向 量 模 长 \color{red}随机向量模长 随n以指数收敛到1。
随 机 向 量 x ∈ R n 中 的 每 个 坐 标 采 样 自 N ( 0 , 1 n ) P ( ∣ ∥ x ∥ 2 − 1 ∣ ≥ ε ) ≤ 2 exp ⁡ ( − ε 2 n 8 ) 随机向量x\in R^n中的每个坐标采样自N(0,\frac{1}{n})\\ P(|\Vert x\Vert^2 - 1| \geq \varepsilon) \leq 2\exp\left(-\frac{\varepsilon^2 n}{8}\right) xRnN(0,n1)P(x21ε)2exp(8ε2n)
引理: 同 样 采 样 \color{red}同样采样 两个随机向量,近似正交。
P ( ∣ ⟨ x 1 , x 2 ⟩ ∣ ≥ ε ) ≤ 4 exp ⁡ ( − ε 2 n 8 ) P(|\langle x_1, x_2\rangle| \geq \varepsilon) \leq 4\exp\left(-\frac{\varepsilon^2 n}{8}\right) P(x1,x2ε)4exp(8ε2n)

Johnson–Lindenstrauss Lemma

给定 ϵ > 0 \epsilon>0 ϵ>0, x i ∈ R m ( i = 1 , … , N ) , 如 上 采 样 出 一 个 随 机 矩 阵 A ∈ R n × m , n > 24 log ⁡ N ε 2 x_i \in R^m(i=1,…,N),如上采样出一个随机矩阵A\in \R^{n×m},n > \frac{24\log N}{\varepsilon^2} xiRm(i=1,,N),ARn×m,n>ε224logN

( 1 − ε ) ∥ v i − v j ∥ 2 ≤ ∥ A v i − A v j ∥ 2 ≤ ( 1 + ε ) ∥ v i − v j ∥ 2 (1-\varepsilon)\Vert v_i - v_j\Vert^2 \leq \Vert Av_i - A v_j\Vert^2 \leq (1+\varepsilon)\Vert v_i - v_j\Vert^2 (1ε)vivj2AviAvj2(1+ε)vivj2

应用

余弦定理

        计算两个句子的相似程度,可先用 TF-IDF 算法来生成词频向量,然后计算余弦夹角,越小则越相似。

哈希函数

        哈希函数(MD5 等)将文章转成定长字符串,比如 32 位。在前端的加密中我实现过对“123456”的加密。
在这里插入图片描述

simhash

        传统哈希函数无法进行两篇文章的相似度比较。simhash 技术,它是 Google 为了解决大规模的网页去重而发明的算法。使用0,1表示最终的计算结果,异或运算进行比较。

        Johnson–Lindenstrauss 引理+离散化:欧式空间中的N个点,经过相同的随机投影映射后,它们仍然会保持原来的相对位置。然后对随机投影的结果进行离散化(小于90°为1,大于90°为01 相似为1,否则为0),方便计算与存储。

         在以上的基础上,simhash进行了文章分词,对每个词hash,对hash结果加权,将词向量合并(依次相加操作),降维等处理得到最终结果。这里有对simhash算法的讲解,但好像计算的操作不同。

2: 或 − 1 , 使 用 − 1 就 可 不 将 所 有 向 量 集 中 在 一 个 象 限 。 \tiny或-1,使用-1就可不将所有向量集中在一个象限。 1使1

reference

参考
参考
参考

高维随机
机器学习的理论进展到了什么程度?
Du, S. S., Kakade, S. M., Wang, R., & Yang, L. F. (2019). Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning?
Database-friendly random projections:
Johnson-Lindenstrauss with binary coins

attention中的应用
DGBR算法
IJCAI’21 Secure Deep Graph Generation with Link Differential Privacy

马 尔 可 夫 不 等 式 : P ( x ≥ a ) ≤ E [ x ] a 切 比 雪 夫 不 等 式 : P ( ( x − E [ x ] ) 2 ≥ a 2 ) ≤ E [ ( x − E [ x ] ) 2 ] a 2 = V a r [ x ] a 2 马尔可夫不等式:P(x\geq a)\leq \frac{\mathbb{E}[x]}{a}\\ 切比雪夫不等式:P((x - \mathbb{E}[x])^2\geq a^2) \leq \frac{\mathbb{E}[(x - \mathbb{E}[x])^2]}{a^2}=\frac{\mathbb{V}ar[x]}{a^2} :P(xa)aE[x]:P((xE[x])2a2)a2E[(xE[x])2]=a2Var[x]
伯恩斯坦不等式


  1. 1 ↩︎

  2. 1 ↩︎

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值