Johnson–Lindenstrauss Lemma

FakeOccupational

已于 2022-02-27 14:57:06 修改

阅读量571

点赞数

分类专栏：概率论文章标签： hash

于 2022-02-14 17:06:42 首次发布

本文链接：https://blog.csdn.net/ResumeProject/article/details/122906494

版权

概率论专栏收录该内容

24 篇文章 3 订阅

订阅专栏

Johnson–Lindenstrauss引理

引理：给定 $\epsilon>0$ ， $\color{red}随机向量模长$ 随n以指数收敛到1。
$随机向量x\in R^n中的每个坐标采样自N(0,\frac{1}{n})\\ P(|\Vert x\Vert^2 - 1| \geq \varepsilon) \leq 2\exp\left(-\frac{\varepsilon^2 n}{8}\right)$
引理： $\color{red}同样采样$ 两个随机向量，近似正交。
$P(|\langle x_1, x_2\rangle| \geq \varepsilon) \leq 4\exp\left(-\frac{\varepsilon^2 n}{8}\right)$

Johnson–Lindenstrauss Lemma

给定 $\epsilon>0$ , $x_i \in R^m(i=1,…,N),如上采样出一个随机矩阵A\in \R^{n×m},n > \frac{24\log N}{\varepsilon^2}$

$(1-\varepsilon)\Vert v_i - v_j\Vert^2 \leq \Vert Av_i - A v_j\Vert^2 \leq (1+\varepsilon)\Vert v_i - v_j\Vert^2$

应用

余弦定理

计算两个句子的相似程度，可先用 TF-IDF 算法来生成词频向量，然后计算余弦夹角，越小则越相似。

哈希函数

哈希函数（MD5 等）将文章转成定长字符串，比如 32 位。在前端的加密中我实现过对“123456”的加密。
在这里插入图片描述

simhash

传统哈希函数无法进行两篇文章的相似度比较。simhash 技术，它是 Google 为了解决大规模的网页去重而发明的算法。使用0,1表示最终的计算结果，异或运算进行比较。

Johnson–Lindenstrauss 引理+离散化：欧式空间中的N个点，经过相同的随机投影映射后，它们仍然会保持原来的相对位置。然后对随机投影的结果进行离散化（小于90°为1，大于90°为0¹ 相似为1，否则为0），方便计算与存储。

在以上的基础上，simhash进行了文章分词，对每个词hash，对hash结果加权，将词向量合并(依次相加操作)，降维等处理得到最终结果。这里有对simhash算法的讲解，但好像计算的操作不同。

²: $\tiny或-1，使用-1就可不将所有向量集中在一个象限。$

reference

参考
 参考
 参考

高维随机
 机器学习的理论进展到了什么程度？
Du, S. S., Kakade, S. M., Wang, R., & Yang, L. F. (2019). Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning?
Database-friendly random projections:
Johnson-Lindenstrauss with binary coins
attention中的应用
 DGBR算法
 IJCAI’21 Secure Deep Graph Generation with Link Differential Privacy

$马尔可夫不等式:P(x\geq a)\leq \frac{\mathbb{E}[x]}{a}\\ 切比雪夫不等式:P((x - \mathbb{E}[x])^2\geq a^2) \leq \frac{\mathbb{E}[(x - \mathbb{E}[x])^2]}{a^2}=\frac{\mathbb{V}ar[x]}{a^2}$
伯恩斯坦不等式

1 ↩︎
1 ↩︎

FakeOccupational

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Johnson–Lindenstrauss Lemma

吻数-维基百科链接刚才有人问到“吻数”（Kissing Number），一个单位球同时最多能与多少个单位球接触？写了个简明回答，顺便转过来。答案是12。有趣的是不同维数的吻数。 1,2,3,4维，吻数分别为2,6,12,24。大于４维时，没有定论。但维数等于24时，反倒有准确答案，吻数为196560。这是因为24维时有很多对称群好用。统计学习中的covering number和packing number是什么意思？packing number伯恩斯坦不等式...
复制链接

扫一扫

专栏目录