Johnson–Lindenstrauss引理
引理:给定
ϵ
>
0
\epsilon>0
ϵ>0,
随
机
向
量
模
长
\color{red}随机向量模长
随机向量模长随n以指数收敛到1。
随
机
向
量
x
∈
R
n
中
的
每
个
坐
标
采
样
自
N
(
0
,
1
n
)
P
(
∣
∥
x
∥
2
−
1
∣
≥
ε
)
≤
2
exp
(
−
ε
2
n
8
)
随机向量x\in R^n中的每个坐标采样自N(0,\frac{1}{n})\\ P(|\Vert x\Vert^2 - 1| \geq \varepsilon) \leq 2\exp\left(-\frac{\varepsilon^2 n}{8}\right)
随机向量x∈Rn中的每个坐标采样自N(0,n1)P(∣∥x∥2−1∣≥ε)≤2exp(−8ε2n)
引理:
同
样
采
样
\color{red}同样采样
同样采样两个随机向量,近似正交。
P
(
∣
⟨
x
1
,
x
2
⟩
∣
≥
ε
)
≤
4
exp
(
−
ε
2
n
8
)
P(|\langle x_1, x_2\rangle| \geq \varepsilon) \leq 4\exp\left(-\frac{\varepsilon^2 n}{8}\right)
P(∣⟨x1,x2⟩∣≥ε)≤4exp(−8ε2n)
Johnson–Lindenstrauss Lemma
给定 ϵ > 0 \epsilon>0 ϵ>0, x i ∈ R m ( i = 1 , … , N ) , 如 上 采 样 出 一 个 随 机 矩 阵 A ∈ R n × m , n > 24 log N ε 2 x_i \in R^m(i=1,…,N),如上采样出一个随机矩阵A\in \R^{n×m},n > \frac{24\log N}{\varepsilon^2} xi∈Rm(i=1,…,N),如上采样出一个随机矩阵A∈Rn×m,n>ε224logN
( 1 − ε ) ∥ v i − v j ∥ 2 ≤ ∥ A v i − A v j ∥ 2 ≤ ( 1 + ε ) ∥ v i − v j ∥ 2 (1-\varepsilon)\Vert v_i - v_j\Vert^2 \leq \Vert Av_i - A v_j\Vert^2 \leq (1+\varepsilon)\Vert v_i - v_j\Vert^2 (1−ε)∥vi−vj∥2≤∥Avi−Avj∥2≤(1+ε)∥vi−vj∥2
应用
余弦定理
计算两个句子的相似程度,可先用 TF-IDF 算法来生成词频向量,然后计算余弦夹角,越小则越相似。
哈希函数
哈希函数(MD5 等)将文章转成定长字符串,比如 32 位。在前端的加密中我实现过对“123456”的加密。
simhash
传统哈希函数无法进行两篇文章的相似度比较。simhash 技术,它是 Google 为了解决大规模的网页去重而发明的算法。使用0,1表示最终的计算结果,异或运算进行比较。
Johnson–Lindenstrauss 引理+离散化:欧式空间中的N个点,经过相同的随机投影映射后,它们仍然会保持原来的相对位置。然后对随机投影的结果进行离散化(小于90°为1,大于90°为01 相似为1,否则为0),方便计算与存储。
在以上的基础上,simhash进行了文章分词,对每个词hash,对hash结果加权,将词向量合并(依次相加操作),降维等处理得到最终结果。这里有对simhash算法的讲解,但好像计算的操作不同。
2: 或 − 1 , 使 用 − 1 就 可 不 将 所 有 向 量 集 中 在 一 个 象 限 。 \tiny或-1,使用-1就可不将所有向量集中在一个象限。 或−1,使用−1就可不将所有向量集中在一个象限。
reference
参考
参考
参考
高维随机
机器学习的理论进展到了什么程度?
Du, S. S., Kakade, S. M., Wang, R., & Yang, L. F. (2019). Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning?
Database-friendly random projections:
Johnson-Lindenstrauss with binary coins
attention中的应用
DGBR算法
IJCAI’21 Secure Deep Graph Generation with Link Differential Privacy
马
尔
可
夫
不
等
式
:
P
(
x
≥
a
)
≤
E
[
x
]
a
切
比
雪
夫
不
等
式
:
P
(
(
x
−
E
[
x
]
)
2
≥
a
2
)
≤
E
[
(
x
−
E
[
x
]
)
2
]
a
2
=
V
a
r
[
x
]
a
2
马尔可夫不等式:P(x\geq a)\leq \frac{\mathbb{E}[x]}{a}\\ 切比雪夫不等式:P((x - \mathbb{E}[x])^2\geq a^2) \leq \frac{\mathbb{E}[(x - \mathbb{E}[x])^2]}{a^2}=\frac{\mathbb{V}ar[x]}{a^2}
马尔可夫不等式:P(x≥a)≤aE[x]切比雪夫不等式:P((x−E[x])2≥a2)≤a2E[(x−E[x])2]=a2Var[x]
伯恩斯坦不等式