文章目录
1. 前言
1.1. 什么是函数依赖
给定:一个随机变量集合 R = { X 1 , . . . , X d , Y } \mathcal{R} = \{X_1, . . . ,X_d ,Y\} R={X1,...,Xd,Y} ,它们的值域分别为 V ( X 1 ) , . . . , V ( X d ) V(X_1), . . . ,V(X_d ) V(X1),...,V(Xd) 和 V ( Y ) V(Y) V(Y)。将变量 Y Y Y 视为输出变量,并将变量集 I = { X 1 , . . . , X d } \mathcal{I} = \{X_1,...,X_d\} I={X1,...,Xd} 视为输入变量。
求得:函数依赖的目的是找到输入变量的一个子集 X ⊆ I \mathcal{X} \subseteq \mathcal{I} X⊆I,使得其能够决定变量 Y Y Y。即存在一个函数 f : V ( X ) ⟶ V ( Y ) \mathcal{f}: V(\mathcal{X}) \longrightarrow V(Y) f:V(X)⟶V(Y),使得 ∀ x ∈ V ( X ) \forall \mathbf{x} \in V(\mathcal{X}) ∀x∈V(X)
p ( Y = y ∣ X = x ) = { 1 , if y = f ( x ) 0 , otherwise (1) p(Y=y \mid X=\mathbf{x})= \begin{cases} 1 & , \text { if }\ y=f(\mathbf{x}) \\ 0 & , \text { otherwise } \end{cases} \tag{1} p(Y=y∣X=x)={10, if y=f(x), otherwise (1)
而如果随机变量对应于真实世界量的测量,通常会有未观察到的细微缺陷或噪声导致等式 ( 1 ) (1) (1) 不能完全正确。所以需要考虑松弛公式 ( 1 ) (1) (1)为: p ( Y = y ∣ X = x ) ≥ 1 − ϵ , i f y = f ( x ) p(Y = y |\ \mathcal{X} = \mathbf{x}) ≥ 1−\epsilon,\ if\ y = f (\mathbf{x}) p(Y=y∣ X=x)≥1−ϵ, if y=f(x)。
1.2. 定量依赖程度的方法
然而,与任何基于硬阈值的参数化一样,参数
ϵ
\epsilon
ϵ 在实践中很难设置,所以只能提供定性的而不是定量的松弛。不能定量则说明这种方法不能用来表达
Y
Y
Y 被
X
\mathcal{X}
X 影响的程度。用来定量的办法主要有:
① 使用以 似然(likeihood) 为基础的测量,例如
p
(
Y
=
y
∣
X
=
x
)
=
C
o
u
n
t
(
x
,
y
)
C
o
u
n
t
(
x
)
(2)
p(Y = y |\ \mathcal{X} = \mathbf{x}) = \frac{Count(\mathbf{x},y)}{Count(\mathbf{x})} \tag{2}
p(Y=y∣ X=x)=Count(x)Count(x,y)(2)
② 使用 信息理论 来测量,例如考虑将互信息归一到
[
0
,
1
]
[0,1]
[0,1] 之间:
F
(
X
;
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
H
(
Y
)
=
M
I
(
X
,
Y
)
H
(
Y
)
(3)
F(\mathcal{X}; Y) = \frac{H(Y) - H(Y|\mathcal{X})}{H(Y)} = \frac{MI(\mathcal{X}, Y)}{H(Y)} \tag{3}
F(X;Y)=H(Y)H(Y)−H(Y∣X)=H(Y)MI(X,Y)(3)
以上两种方法都需要计算变量
X
\mathcal{X}
X 和
Y
Y
Y 的 empirical co-occurrences,来近似一些概率和信息量。它们也就都存在类似的缺陷:在有限的数据集中,当
X
\mathcal{X}
X 中的元素数量提升,经验比值
∣
(
x
,
y
)
∣
/
∣
x
∣
|(\mathbf{x},y)|/|\mathbf{x}|
∣(x,y)∣/∣x∣ 会越来越高,趋向于
1.0
1.0
1.0——(缺少)零基线属性问题【the (lack of) zero-baseline property】。从而使得上面两个方法都让松弛后的公式
(
1
)
(1)
(1) 成立,从而导致:
① 缺陷一:过拟合产生错误的依赖关系,被依赖集合X中元素过多。
② 缺陷二:捕捉的边缘依赖而不是真正的条件依赖,有偏差。
③ 缺陷三:上述方法搜索最优子集
X
⊆
I
\mathcal{X} \subseteq \mathcal{I}
X⊆I 的时候,时间复杂度是指数级的。
只要使用类似于熵这样的方法来评判依赖性,就会产生缺陷一、二,这样的过拟合。为了避免,当前的方法使用 ① 后处理简化程序、② 基于排名的方案。其中最常用的是寻找最小函数依赖。
1.3. 常用的函数依赖性度量的方法
- 信息理论——互信息体系
互信息是最常用的依赖性度量的方法,它是两个变量联合概率分布和边缘概率分布乘积的 KL 散度(Kullback-Leibler divergence),即:
I ( X , Y ) = KL ( p x y , p x p y ) \textit{I}(X, Y) = \textbf{KL}(p_{xy}, p_xp_y) I(X,Y)=KL(pxy,pxpy)然而,从有限样本中估计互信息具有挑战性,这促使人们引入了基于其他 f f f-发散度或积分概率度量的依赖性度量。(见下一条)
Discovering Reliable Approximate Functional Dependencies —— 归一化互信息并修正偏差,解决零基线缺失问题。 - 积分概率度量(IPM)
IPM 是互信息的一个广义定义,设 D D D 是与函数空间 F \mathscr{F} F 相关的积分概率度量,对于两个分布 p p p 和 q q q, p = p x y p=p_{xy} p=pxy 且 q = p x p y q=p_xp_y q=pxpy:
D ( p , q ) = sup f ∈ F E x ∼ p f ( x ) − E x ∼ q f ( x ) D(p, q)=\sup _{f \in \mathscr{F}} \mathbb{E}_{x \sim p} f(x)-\mathbb{E}_{x \sim q} f(x) D(p,q)=f∈FsupEx∼pf(x)−Ex∼qf(x)
例如 Hilbert-Schmidt Independence Criterion (HSIC) 使用 Maximum Mean Discrepancy (MMD) 来评估两个变量之间的依赖性:
HSIC ( X , Y ) = MMD ( p x y , p x p y ) \textbf{HSIC}(X, Y) = \textbf{MMD}(p_{xy}, p_xp_y) HSIC(X,Y)=MMD(pxy,pxpy)通过在 再现核希尔伯特空间-RKHS 中的核平均嵌入,可以很容易地从样本中估计出来。
Sobolev Independence Criterion —— 梯度正则化的 IPM - 概率图模型的结构学习方法
将函数依赖性发掘问题 转化为 概率图模型的结构学习问题,可以通过识别逆协方差矩阵(精度矩阵)中的非零项来学习结构化分布的条件独立性,随机变量之间的条件依赖关系由逆协方差矩阵 Θ \Theta Θ 的非零非对角项捕获。
A Statistical Perspective on Discovering Functional Dependencies in Noisy Data
2. Discovering Reliable Approximate Functional Dependencies —— KDD 2017
该文章1解决了 1.2 中的缺陷。对于缺陷一和二,其采用了修正后的
F
(
X
;
Y
)
F(\mathcal{X}; Y)
F(X;Y),一定程度上解决了零基线缺失的问题;对于缺陷三,其采用了分支限界法选取
t
o
p
top
top-
k
k
k 个打分最高的,进一步地,使用
α
∈
(
0
,
1
]
\alpha \in (0,1]
α∈(0,1] 来放宽约束(牺牲精度换时间)。
2.1. 问题描述
同1.1
2.2. 修正的打分函数
虽然在一般情况下很难确定偏差,但在独立性
F
(
X
;
Y
)
=
0
F(\mathcal{X};Y) = 0
F(X;Y)=0 的假设下可能要容易得多。设
b
0
(
X
,
Y
,
n
)
b_0(\mathcal{X}, Y, n)
b0(X,Y,n) 为
X
\mathcal{X}
X 和
Y
Y
Y 完全独立时的偏差(完全独立时
F
F
F 的估计值),即:
b
0
(
X
,
Y
,
n
)
=
E
[
F
^
(
X
;
Y
)
∣
F
(
X
;
Y
)
=
0
]
(4)
b_0(\mathcal{X}, Y, n) = \mathbb{E}[\hat{F}(\mathcal{X}; Y) | F(\mathcal{X}; Y)=0 ] \tag{4}
b0(X,Y,n)=E[F^(X;Y)∣F(X;Y)=0](4)
则将打分函数修正为:
F
^
0
(
X
;
Y
)
=
F
^
(
X
;
Y
)
−
b
^
0
(
X
,
Y
,
n
)
(5)
\hat{F}_0(\mathcal{X}; Y) = \hat{F}(\mathcal{X}; Y) - \hat{b}_0(\mathcal{X}, Y, n) \tag{5}
F^0(X;Y)=F^(X;Y)−b^0(X,Y,n)(5)
对于
b
^
0
(
X
,
Y
,
n
)
\hat{b}_0(\mathcal{X},Y,n)
b^0(X,Y,n) 的计算,可以采用排列模型:将
n
n
n 条数据中的
X
\mathcal{X}
X 不变,
n
n
n 条
Y
Y
Y 值作全排列,则
n
!
n!
n! 个新的数据集中
X
\mathcal{X}
X 和
Y
Y
Y 的互信息的均值,就是在独立条件下对经验互信息的期望,也就是偏差
b
^
0
\hat{b}_0
b^0 的分子部分:
m
^
o
(
X
,
Y
,
n
)
=
E
^
0
[
I
^
(
X
,
Y
σ
)
]
=
1
n
!
∑
σ
∈
S
n
I
^
(
X
,
Y
σ
)
(6)
\hat{m}_{o}(\mathcal{X}, Y, n)=\hat{\mathbb{E}}_{0}\left[\hat{I}\left(\mathcal{X}, Y_{\sigma}\right)\right]=\frac{1}{n !} \sum_{\sigma \in S_{n}} \hat{I}\left(\mathcal{X}, Y_{\sigma}\right) \tag{6}
m^o(X,Y,n)=E^0[I^(X,Yσ)]=n!1σ∈Sn∑I^(X,Yσ)(6)其中,
S
n
S_n
Sn 是全排列映射的集合,
Y
σ
Y_\sigma
Yσ 是
Y
Y
Y 经过全排列
σ
\sigma
σ 映射后的向量。
但是,上面的表达式的时间复杂度过高,进一步将上述表达式重新表述为 contingency table cell values 的函数,并利用其对称性。设
X
\mathcal{X}
X 和
Y
Y
Y 的在数据集中的值域分别为
V
^
(
X
)
=
{
x
1
,
.
.
.
,
x
R
}
\hat{V}(\mathcal{X}) = \{\mathbf{x}_1, ..., \mathbf{x}_R\}
V^(X)={x1,...,xR} 和
V
^
(
Y
)
=
{
y
1
,
.
.
.
,
y
C
}
\hat{V}(Y) = \{y_1, ..., y_C\}
V^(Y)={y1,...,yC}。则设观察到的边际计数
a
i
=
C
o
u
n
t
(
X
=
x
i
)
a_i=Count(\mathcal{X}=\mathbf{x}_i)
ai=Count(X=xi),
b
j
=
C
o
u
n
t
(
Y
=
y
j
)
b_j=Count(Y=y_j)
bj=Count(Y=yj),联合计数
c
i
j
=
C
o
u
n
t
(
X
=
x
i
,
Y
=
y
j
)
c_{ij} = Count(\mathcal{X}=\mathbf{x}_i, Y=y_j)
cij=Count(X=xi,Y=yj)(
a
a
a 和
b
b
b 对于每一个排列都是一定的,但是
c
c
c 对于每个排列都各不同)。则独立条件下对经验互信息的期望可以被重写为:
m
^
0
(
X
,
Y
,
n
)
=
∑
c
∈
T
P
^
0
[
c
]
I
^
(
c
)
=
∑
c
∈
T
P
^
0
[
c
]
∑
i
=
1
R
∑
j
=
1
C
c
i
j
n
log
c
i
j
n
a
i
b
j
(7)
\hat{m}_{0}(\mathcal{X}, Y, n)=\sum_{c \in \mathcal{T}} \hat{\mathbb{P}}_{0}[c] \hat{I}(c)=\sum_{c \in \mathcal{T}} \hat{\mathbb{P}}_{0}[c] \sum_{i=1}^{R} \sum_{j=1}^{C} \frac{c_{i j}}{n} \log \frac{c_{i j} n}{a_{i} b_{j}} \tag{7}
m^0(X,Y,n)=c∈T∑P^0[c]I^(c)=c∈T∑P^0[c]i=1∑Rj=1∑Cncijlogaibjcijn(7)
进一步观察到,
c
i
j
=
k
c_{ij}=k
cij=k 的概率可由超几何分布得到,即:
P
^
0
[
c
i
j
=
k
]
=
h
(
k
;
a
i
,
b
j
,
n
)
(8)
\hat{\mathbb{P}}_0[c_{ij} = k] = h(k; a_i,b_j ,n) \tag{8}
P^0[cij=k]=h(k;ai,bj,n)(8)那么经验互信息的期望可以被重写为:
m
^
0
(
X
,
Y
,
n
)
=
∑
i
=
1
R
∑
j
=
1
C
∑
k
=
max
(
0
,
a
i
+
b
j
−
n
)
min
(
a
i
,
b
j
)
h
(
k
;
a
i
,
b
j
,
n
)
k
n
log
k
n
a
i
b
j
(9)
\hat{m}_{0}(\mathcal{X}, Y, n)=\sum_{i=1}^{R} \sum_{j=1}^{C} \sum_{k=\max \left(0, a_{i}+b_{j}-n\right)}^{\min \left(a_{i}, b_{j}\right)} h\left(k ; a_{i}, b_{j}, n\right) \frac{k}{n} \log \frac{k n}{a_{i} b_{j}} \tag{9}
m^0(X,Y,n)=i=1∑Rj=1∑Ck=max(0,ai+bj−n)∑min(ai,bj)h(k;ai,bj,n)nklogaibjkn(9)至此,时间复杂度降到了可计算的范围内。那么可以计算
b
^
0
(
X
,
Y
,
n
)
=
m
^
0
(
X
,
Y
,
n
)
/
H
^
(
Y
)
\hat{b}_0(\mathcal{X},Y,n) = \hat{m}_{0}(\mathcal{X}, Y, n) / \hat{H}(Y)
b^0(X,Y,n)=m^0(X,Y,n)/H^(Y)。这样得到的打分函数
F
^
0
\hat{F}_0
F^0 有众多特点:
①
lim
n
→
∞
F
^
0
(
X
;
Y
)
=
F
(
X
;
Y
)
\lim _{n \rightarrow \infty} \hat{F}_{0}(\mathcal{X} ; Y)=F(\mathcal{X} ; Y)
limn→∞F^0(X;Y)=F(X;Y);
②
F
^
0
\hat{F}_0
F^0 的上限仍是1;
③
b
^
0
\hat{b}_0
b^0 惩罚了高维
X
\mathcal{X}
X 很容易出现的虚假依赖关系。
2.3. 分支限界搜索策略
- 上界: f ˉ ( X ) = 1 − b ^ 0 ( X , Y , n ) \bar{f}(\mathcal{X}) = 1 - \hat{b}_0(\mathcal{X}, Y, n) fˉ(X)=1−b^0(X,Y,n)
- 节点拓展: r ( X ) = { X ∪ { X i } : i > max { j : X j ∈ X } } \mathbf{r}(\mathcal{X})=\left\{\mathcal{X} \cup\left\{X_{i}\right\}: i>\max \left\{j: X_{j} \in \mathcal{X}\right\}\right\} r(X)={X∪{Xi}:i>max{j:Xj∈X}}
目标是找到一个 k k k 个元素的集合 F k \mathcal{F}_k Fk,使得对于所有 X ∈ F k and Z ∈ P ( I ) \ F k \mathcal{X} \in \mathcal{F}_{k} \text { and } \mathcal{Z} \in \mathcal{P}(\mathcal{I}) \backslash \mathcal{F}_{k} X∈Fk and Z∈P(I)\Fk,有 α F ^ 0 ( Z ; Y ) ≤ F ^ 0 ( X ; Y ) \alpha \hat{F}_{0}(\mathcal{Z} ; Y) \leq \hat{F}_{0}(\mathcal{X} ; Y) αF^0(Z;Y)≤F^0(X;Y)
3. A Statistical Perspective on Discovering Functional Dependencies in Noisy Data —— SIGMOD 2020
对于 1.2 中的缺陷一、二,该文章2将函数依赖性的学习建立在概率图模型的结构学习方法之上,来直接发现条件独立性,以缓解过拟合的问题。
流程:Data Set Transformation
⟶
\longrightarrow
⟶ Structure Learning
⟶
\longrightarrow
⟶ FD generation
3.1. 问题描述
给定:一个与概率分布
P
R
P_R
PR 相关的关系模式
R
R
R 。假设一个遵循模式
R
R
R 的噪声数据集
D
′
D'
D′ 由以下过程生成:首先从
P
R
P_R
PR 中采样一个纯净的数据集
D
D
D,一个噪声信道模型在
D
D
D 中引入噪声来生成
D
′
D'
D′ 。假设
D
D
D 和
D
′
D'
D′ 有相同的单元格,但
D
′
D'
D′ 中的单元格可能比
D
D
D 中对应的单元格有缺失值或不同值。
求得:识别生成纯净数据集
D
D
D 的分布
P
R
P_R
PR 的函数依赖关系。
3.2. 数据集转换
令
I
i
j
[
Y
]
=
1
(
t
i
[
Y
]
=
t
j
[
Y
]
)
I_{i j}[Y]=\mathbb{1}(t_i[Y] = t_j[Y])
Iij[Y]=1(ti[Y]=tj[Y]),将公式
(
1
)
(1)
(1) 松弛并写成如下形式:
Pr
(
I
i
j
[
Y
]
=
1
∣
t
i
[
X
]
=
t
j
[
X
]
)
=
1
−
ϵ
(10)
\operatorname{Pr}\left(I_{i j}[Y]=1 \mid t_{i}[\mathbf{X}]=t_{j}[\mathbf{X}]\right)=1-\epsilon \tag{10}
Pr(Iij[Y]=1∣ti[X]=tj[X])=1−ϵ(10)通过学习上述模型而非直接学习原模型,可以 ① 使模型对原数据中的错误更不敏感,因为使用原数据的时候离群值会影响均值,进而大大影响估计协方差,而转换后受的影响小一些;② 使模型能估计各种分布数据中的函数依赖(包括断言、数据、文本等)。
对于
R
R
R 中的任意一个特征
A
A
A,设
Z
A
∈
{
0
,
1
}
Z_A \in \{0,1\}
ZA∈{0,1} 变量表示从
P
R
P_R
PR 分布中采样的任意两个数据元组的属性
A
A
A 的值是否相等。
Z
\mathbf{Z}
Z 则是包含变量
Z
A
Z_A
ZA 的向量变量。
Z
\mathbf{Z}
Z 的任何一个实例都表示一个二进制向量,它捕获了从
P
R
P_R
PR 采样的两个随机元组之间的属性值的相等性关系。进而可以讲式
(
10
)
(10)
(10) 再次转化为:
Pr
(
Z
[
Y
]
=
1
∣
Z
[
X
]
=
1
)
=
1
−
ϵ
(11)
\operatorname{Pr}\left(\mathbf{Z}[Y]=1 \mid \mathbf{Z}[\mathcal{X}]=1\right)=1-\epsilon \tag{11}
Pr(Z[Y]=1∣Z[X]=1)=1−ϵ(11)
这是一个 NP-hard 问题,提出两个模型来解决它,并将其转为结构学习问题:
① 为了近似由函数依赖引入的确定性约束,引入软逻辑(soft-logic)的技术3:
A
1
∩
A
2
∩
.
.
.
∩
A
k
=
1
k
∑
i
A
i
A_1 \cap A_2 \cap ... \cap A_k = \frac{1}{k}\sum_i A_i
A1∩A2∩...∩Ak=k1∑iAi。进而使用线性结构方程模型来近似函数依赖,即式
(
11
)
(11)
(11) 表示的函数依赖也可以用下式表示:
Z
^
[
Y
]
=
1
∣
X
∣
∑
X
i
∈
X
Z
^
[
X
i
]
(12)
\hat{\mathbf{Z}}[Y]=\frac{1}{|\mathcal{X}|} \sum_{X_{i} \in \mathcal{X}} \hat{\mathbf{Z}}\left[X_{i}\right]\tag{12}
Z^[Y]=∣X∣1Xi∈X∑Z^[Xi](12)
② 得到一个简洁的模型,设定一个与
Z
^
\mathbf{\hat{Z}}
Z^ 中的属性对应的随机变量的全局顺序并假设无循环依赖关系,假设
X
\mathcal{X}
X 都在
Y
Y
Y 的前面(——下面的自回归矩阵B就是一个上三角矩阵)。再结合 ① ,则可以讲线性结构方程模型写为:
Z
^
=
B
T
Z
^
+
ϵ
(13)
\mathbf{\hat{Z}} = B^T\mathbf{\hat{Z}} + \epsilon\tag{13}
Z^=BTZ^+ϵ(13)
其中,
B
B
B 是自回归矩阵,且是上三角矩阵。我们的目标就转化为求
B
B
B 中的非0元素。
E
[
ϵ
]
=
0
E[\epsilon] = 0
E[ϵ]=0。
生成转化后数据的过程是:对于原始数据集 D ( n , k ) D(n,k) D(n,k),根据每个特征 A A A 都对 D D D 中的元组进行排序,然后将每条元组和其下一条比较,生成一个 Z \mathbf{Z} Z 实例,如此就能生成 n × k n \times k n×k 个实例。
3.3. 线性结构的学习
在统计关系学习文献中,有一个众所周知的事实是,人们可以通过识别逆协方差矩阵(精度矩阵)中的非零项来学习结构化分布的条件独立性456,随机变量之间的条件依赖关系由逆协方差矩阵 Θ \Theta Θ 的非零非对角项捕获,【见附录 B】。
对于式
(
13
)
(13)
(13) 中的线性结构模型,其逆协方差矩阵可以被写为:
Θ
=
Σ
−
1
=
(
I
−
B
)
Ω
−
1
(
I
−
B
)
T
(14)
\Theta=\Sigma^{-1}=(I-B) \Omega^{-1}(I-B)^{T}\tag{14}
Θ=Σ−1=(I−B)Ω−1(I−B)T(14)【证明在附录 A 中】,其中
I
I
I 是单位矩阵,
B
B
B 是自回归矩阵,
Ω
=
c
o
v
[
ϵ
]
\Omega = cov[\epsilon]
Ω=cov[ϵ]。
最优的稀疏逆协方差对应于以下优化问题的一个解7:
min
Θ
>
0
f
(
Θ
)
:
=
−
log
det
(
Θ
)
+
tr
(
S
Θ
)
+
λ
∣
∣
Θ
∣
∣
1
(15)
\min _{\Theta>0} f(\Theta):=-\log \operatorname{det}(\Theta)+\operatorname{tr}(S \Theta)+\lambda||\Theta||_1\tag{15}
Θ>0minf(Θ):=−logdet(Θ)+tr(SΘ)+λ∣∣Θ∣∣1(15) 使用 graphical lasso8 算法求解得到
Θ
^
\hat{\Theta}
Θ^,它适用于支持具有大量属性的数据集。再将其分解,得到自回归矩阵
B
^
\hat{B}
B^ 的估计。
3.4. 生成函数依赖集
最后使用估计的自回归矩阵
B
^
\hat{B}
B^ 去生成函数依赖集。
4. Sobolev Independence Criterion
- Sobolev Independence Criterion(SIC)9 是一种高维随机变量 X \mathbf{X} X 和响应变量 Y Y Y 之间的可解释依赖度量。
- SIC 可以看作是两个随机变量的联合分布和它们的边缘分布的乘积之间的一个梯度正则化的积分概率度量(IPM)—— 两个概率分布之间距离的度量。
- 在 RKHS 下其可以分解为特征重要性分数之和,相对于每一个特征的平均梯度的大小给出了该特征的重要性分数,因此可用于非线性特征选择。
4.1. SIC —— 可解释的依赖度量
动机:特征选择:首先通过一个 选择在两个随机变量
X
\mathcal{X}
X 和
Y
\mathcal{Y}
Y 之间保持最大依赖性的特征选择方法 来激励 SIC 中的梯度稀疏性正则化。有了1.3中互信息的广义定义,特征选择问题可以形式化为:寻找一个稀疏的选择器
ω
∈
R
d
x
\omega \in \mathbb{R}^{d_x}
ω∈Rdx 使得
D
(
p
w
⊙
x
,
y
,
p
w
⊙
x
p
y
)
D\left(p_{w \odot x, y}, p_{w \odot x} p_{y}\right)
D(pw⊙x,y,pw⊙xpy) 最大,那么特征选择问题就可以写为:
(
P
)
:
sup
w
sup
f
∈
F
E
p
x
y
f
(
w
⊙
x
,
y
)
−
E
p
x
p
y
f
(
w
⊙
x
,
y
)
−
λ
∥
w
∥
ℓ
0
(16)
(\mathrm{P}): \quad \sup _{w} \sup _{f \in \mathscr{F}} \mathbb{E}_{p_{x y}} f(w \odot x, y)-\mathbb{E}_{p_{x} p_{y}} f(w \odot x, y)-\lambda\|w\|_{\ell_{0}}\tag{16}
(P):wsupf∈FsupEpxyf(w⊙x,y)−Epxpyf(w⊙x,y)−λ∥w∥ℓ0(16)进一步可以将该问题重新表述如下:
(
S
I
C
)
:
sup
f
∈
F
E
p
x
y
f
(
x
,
y
)
−
E
p
x
p
y
f
(
x
,
y
)
−
λ
P
S
(
f
)
(17)
(\mathrm{SIC}): \sup _{f \in \mathscr{F}} \mathbb{E}_{p_{x y}} f(x, y)-\mathbb{E}_{p_{x} p_{y}} f(x, y)-\lambda P_{S}(f)\tag{17}
(SIC):f∈FsupEpxyf(x,y)−Epxpyf(x,y)−λPS(f)(17)其中
P
S
(
f
)
P_S(f)
PS(f) 是一个惩罚项,控制见证函数
f
f
f 梯度的稀疏度。通过梯度控制 (SIC) 中见证函数的非线性稀疏性比初始形式
(
P
)
(P)
(P) 中的线性稀疏性控制更一般和强大,因为它考虑了与其他变量的非线性相互作用。
稀疏强度诱发的梯度惩罚:① 在图像处理中,总变量范数被用作正则化器来诱导平滑性;② 索波列夫空间中的样条和流形学习利用梯度正则化来提高估计量的光滑性和正则性;③ 在神经网络的背景下,梯度惩罚通过双重反向传播成为可能。设
μ
\mu
μ 是一个分布,最常用的梯度惩罚是:
Ω
L
2
(
f
)
=
E
(
x
,
y
)
∼
μ
∣
∣
∇
x
f
(
x
,
y
)
∣
∣
(18)
\Omega_{L^2}(f) = \mathbb{E}_{(x,y)\sim\mu}||\nabla_xf(x,y)||\tag{18}
ΩL2(f)=E(x,y)∼μ∣∣∇xf(x,y)∣∣(18)这种惩罚促进了平滑性,它没有控制所期望的稀疏性。因此,我们选择使用非线性稀疏性惩罚10:
Ω
ℓ
0
(
f
)
=
#
{
j
∣
E
(
x
,
y
)
∼
μ
∣
∂
f
(
x
,
y
)
∂
x
j
∣
2
=
0
}
,
and its relaxation
:
Ω
S
(
f
)
=
∑
j
=
1
d
x
E
(
x
,
y
)
∼
μ
∣
∂
f
(
x
,
y
)
∂
x
j
∣
2
(19)
\begin{aligned} &\Omega_{\ell_{0}}(f)=\#\left\{\left.j\left|\ \mathbb{E}_{(x, y) \sim \mu}\right| \frac{\partial f(x, y)}{\partial x_{j}}\right|^{2}=0\right\}, \text { and its relaxation }: \\ &\Omega_{S}(f)=\sum_{j=1}^{d_{x}} \sqrt{\mathbb{E}_{(x, y) \sim \mu}\left|\frac{\partial f(x, y)}{\partial x_{j}}\right|^{2}} \end{aligned}\tag{19}
Ωℓ0(f)=#{j∣∣ E(x,y)∼μ∣∣∂xj∂f(x,y)∣∣∣∣2=0}, and its relaxation :ΩS(f)=j=1∑dxE(x,y)∼μ∣∣∣∣∂xj∂f(x,y)∣∣∣∣2(19)如果函数f是连续可微的,并且 the support of
μ
\mu
μ is connected,SIC 可被定义如下:
SIC
(
L
1
)
2
(
p
x
y
,
p
x
p
y
)
=
sup
f
∈
F
E
p
x
y
f
(
x
,
y
)
−
E
p
x
p
y
f
(
x
,
y
)
−
λ
2
(
Ω
S
(
f
)
)
2
−
ρ
2
E
μ
f
2
(
x
,
y
)
(20)
\begin{aligned} \operatorname{SIC}_{\left(L_{1}\right)^{2}}\left(p_{x y}, p_{x} p_{y}\right)=\sup _{f \in \mathscr{F}} \ &\mathbb{E}_{p_{x y}} f(x, y)-\mathbb{E}_{p_{x} p_{y}} f(x, y) \\&-\frac{\lambda}{2}\left(\Omega_{S}(f)\right)^{2}-\frac{\rho}{2} \mathbb{E}_{\mu} f^{2}(x, y) \end{aligned}\tag{20}
SIC(L1)2(pxy,pxpy)=f∈Fsup Epxyf(x,y)−Epxpyf(x,y)−2λ(ΩS(f))2−2ρEμf2(x,y)(20)上式添加了一个类似
l
1
\mathcal{l}_1
l1 的惩罚项
Ω
S
(
f
)
\Omega_{S}(f)
ΩS(f) 来保证稀疏性;又添加了一个类似
l
2
\mathcal{l}_2
l2 的惩罚项
E
μ
f
2
(
x
,
y
)
\mathbb{E}_{\mu} f^{2}(x, y)
Eμf2(x,y) 来保证稳定性。
经验估计 SIC:如果设
μ
=
p
x
p
y
\mu = p_xp_y
μ=pxpy,给定服从概率分布
p
x
y
p_{xy}
pxy 的样本
{
(
x
i
,
y
i
)
,
i
=
1
,
.
.
.
,
N
}
\{(x_i,y_i), i=1, ...,N\}
{(xi,yi),i=1,...,N} 和服从概率分布
p
x
p
y
p_xp_y
pxpy 的样本
{
(
x
i
,
y
~
i
)
,
i
=
1
,
.
.
.
,
N
}
\{(x_i,\tilde{y}_i), i=1, ...,N\}
{(xi,y~i),i=1,...,N},SIC 可以估计如下:
SIC
^
(
L
1
)
2
(
p
x
y
,
p
x
p
y
)
=
sup
f
∈
F
1
N
∑
i
=
1
N
f
(
x
i
,
y
i
)
−
1
N
∑
i
=
1
N
f
(
x
i
,
y
~
i
)
−
λ
2
(
Ω
^
S
(
f
)
)
2
−
ρ
2
1
N
∑
i
=
1
N
f
2
(
x
i
,
y
~
i
)
(21)
\begin{aligned} \widehat{\operatorname{SIC}}_{\left(L_{1}\right)^{2}}\left(p_{x y}, p_{x} p_{y}\right)=\sup _{f \in \mathscr{F}} \frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}, y_{i}\right)-\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}, \tilde{y}_{i}\right) \\-\frac{\lambda}{2}\left(\hat{\Omega}_{S}(f)\right)^{2}-\frac{\rho}{2} \frac{1}{N} \sum_{i=1}^{N} f^{2}\left(x_{i}, \tilde{y}_{i}\right) \end{aligned}\tag{21}
SIC
(L1)2(pxy,pxpy)=f∈FsupN1i=1∑Nf(xi,yi)−N1i=1∑Nf(xi,y~i)−2λ(Ω^S(f))2−2ρN1i=1∑Nf2(xi,y~i)(21)其中
Ω
^
S
(
f
)
=
∑
j
=
1
d
x
1
N
∑
i
=
1
N
∣
∂
f
(
x
i
,
y
~
i
)
∂
x
j
∣
2
\hat{\Omega}_{S}(f)=\sum_{j=1}^{d_{x}} \sqrt{\frac{1}{N} \sum_{i=1}^{N}\left|\frac{\partial f\left(x_{i}, \tilde{y}_{i}\right)}{\partial x_{j}}\right|^{2}}
Ω^S(f)=∑j=1dxN1∑i=1N∣∣∣∂xj∂f(xi,y~i)∣∣∣2.
4.2. 具有 η \eta η - trick 的 SIC 的等效形式
SIC 在实践中是一个难以优化的函数,会引起非平滑性和有偏性期望估计 (non-smoothness and biased expectation estimation):① 梯度惩罚中,期望出现在平方根之后 —— non-smooth;② 期望在非线性表达式内,当使用随机梯度下降法对 SIC 目标进行优化时,引入了一个梯度估计偏差。解决的方法是引入辅助变量
η
j
\eta_j
ηj,使期望在目标中呈线性关系
引理:
Let
a
j
,
j
=
1
…
d
,
a
j
>
0
a_{j}, j=1 \ldots d, a_{j}>0
aj,j=1…d,aj>0 we have:
(
∑
j
=
1
d
a
j
)
2
=
inf
{
∑
j
=
1
d
a
j
η
j
:
η
,
η
j
>
0
a
n
d
∑
j
=
1
d
η
j
=
1
}
\left(\sum_{j=1}^{d} \sqrt{a_{j}}\right)^{2}=\inf \{\sum_{j=1}^{d} \frac{a_{j}}{\eta_{j}} : \eta, \eta_{j}>0\ and\ \sum_{j=1}^{d} \eta_{j}=1\}
(∑j=1daj)2=inf{∑j=1dηjaj:η,ηj>0 and ∑j=1dηj=1}, optimum achieved at
η
j
=
a
j
/
∑
j
a
j
\eta_{j}=\sqrt{a_{j}} / \sum_{j} \sqrt{a_{j}}
ηj=aj/∑jaj.
首先通过添加
ϵ
∈
(
0
,
1
)
\epsilon\in (0,1)
ϵ∈(0,1) 解决平方根的非光滑性的问题,则
(
Ω
S
,
ε
(
f
)
)
2
=
inf
{
∑
j
=
1
d
x
E
p
x
p
y
∣
∂
f
(
x
,
y
)
∂
x
j
∣
2
+
ε
η
j
:
η
,
η
j
>
0
,
∑
j
=
1
d
x
η
j
=
1
}
(22)
\left(\Omega_{S, \varepsilon}(f)\right)^{2}=\inf \left\{\sum_{j=1}^{d_{x}} \frac{\mathbb{E}_{p_{x} p_{y}}\left|\frac{\partial f(x, y)}{\partial x_{j}}\right|^{2}+\varepsilon}{\eta_{j}}: \eta, \eta_{j}>0, \sum_{j=1}^{d_{x}} \eta_{j}=1\right\}\tag{22}
(ΩS,ε(f))2=inf⎩⎪⎨⎪⎧j=1∑dxηjEpxpy∣∣∣∂xj∂f(x,y)∣∣∣2+ε:η,ηj>0,j=1∑dxηj=1⎭⎪⎬⎪⎫(22)那么就能得到
ϵ
\epsilon
ϵ 扰动下的 SIC:
SIC
(
L
1
)
2
,
ε
(
p
x
y
,
p
x
p
y
)
=
−
inf
{
L
ε
(
f
,
η
)
:
f
∈
F
,
η
j
,
η
j
>
0
,
∑
j
=
1
d
x
η
j
=
1
}
(23)
\operatorname{SIC}_{\left(L_{1}\right)^{2}, \varepsilon}\left(p_{x y}, p_{x} p_{y}\right)=-\inf \left\{L_{\varepsilon}(f, \eta): f \in \mathscr{F}, \eta_{j}, \eta_{j}>0, \sum_{j=1}^{d_{x}} \eta_{j}=1\right\} \tag{23}
SIC(L1)2,ε(pxy,pxpy)=−inf{Lε(f,η):f∈F,ηj,ηj>0,j=1∑dxηj=1}(23)其中,
L
ε
(
f
,
η
)
=
−
Δ
(
f
,
p
x
y
,
p
x
p
y
)
+
λ
2
∑
j
=
1
d
x
E
p
x
p
y
∣
∂
f
(
x
,
y
)
∂
x
j
∣
2
+
ε
η
j
+
ρ
2
E
p
x
p
y
f
2
(
x
,
y
)
L_{\varepsilon}(f, \eta)=-\Delta\left(f, p_{x y}, p_{x} p_{y}\right)+\frac{\lambda}{2} \sum_{j=1}^{d_{x}} \frac{\mathbb{E}_{p_{x} p_{y}}\left|\frac{\partial f(x, y)}{\partial x_{j}}\right|^{2}+\varepsilon}{\eta_{j}}+\frac{\rho}{2} \mathbb{E}_{p_{x} p_{y}} f^{2}(x, y)
Lε(f,η)=−Δ(f,pxy,pxpy)+2λ∑j=1dxηjEpxpy∣∣∣∂xj∂f(x,y)∣∣∣2+ε+2ρEpxpyf2(x,y),并且
Δ
(
f
,
p
x
y
,
p
x
p
y
)
=
E
p
x
y
f
(
x
,
y
)
−
E
p
x
p
y
f
(
x
,
y
)
\Delta\left(f, p_{x y}, p_{x} p_{y}\right)=\mathbb{E}_{p_{x y}} f(x, y)-\mathbb{E}_{p_{x} p_{y}} f(x, y)
Δ(f,pxy,pxpy)=Epxyf(x,y)−Epxpyf(x,y).
经验估计SIC:那么就可以根据样本数据来估计经验 SIC:
SIC
^
(
L
1
)
2
,
ε
(
p
x
y
,
p
x
p
y
)
=
−
inf
{
L
^
ε
(
f
,
η
)
:
f
∈
F
,
η
j
,
η
j
>
0
,
∑
j
=
1
d
x
η
j
=
1
}
(24)
\widehat{\operatorname{SIC}}_{\left(L_{1}\right)^{2}, \varepsilon}\left(p_{x y}, p_{x} p_{y}\right)=-\inf \left\{\hat{L}_{\varepsilon}(f, \eta): f \in \mathscr{F}, \eta_{j}, \eta_{j}>0, \sum_{j=1}^{d_{x}} \eta_{j}=1\right\}\tag{24}
SIC
(L1)2,ε(pxy,pxpy)=−inf{L^ε(f,η):f∈F,ηj,ηj>0,j=1∑dxηj=1}(24) 其中
L
^
ε
(
f
,
η
)
=
−
Δ
^
(
f
,
p
x
y
,
p
x
p
y
)
+
λ
2
∑
j
=
1
d
x
1
N
∑
i
=
1
N
∣
∂
f
(
x
i
,
y
~
i
)
∂
x
j
∣
2
+
ε
η
j
+
ρ
2
1
N
∑
i
=
1
N
f
2
(
x
i
,
y
~
i
)
\hat{L}_{\varepsilon}(f, \eta)=-\hat{\Delta}\left(f, p_{x y}, p_{x} p_{y}\right)+\frac{\lambda}{2} \sum_{j=1}^{d_{x}} \frac{\frac{1}{N} \sum_{i=1}^{N}\left|\frac{\partial f\left(x_{i}, \tilde{y}_{i}\right)}{\partial x_{j}}\right|^{2}+\varepsilon}{\eta_{j}}+\frac{\rho}{2} \frac{1}{N} \sum_{i=1}^{N} f^{2}\left(x_{i}, \tilde{y}_{i}\right)
L^ε(f,η)=−Δ^(f,pxy,pxpy)+2λ∑j=1dxηjN1∑i=1N∣∣∣∂xj∂f(xi,y~i)∣∣∣2+ε+2ρN1∑i=1Nf2(xi,y~i),并且
Δ
^
(
f
,
p
x
y
,
p
x
p
y
)
=
1
N
∑
i
=
1
N
f
(
x
i
,
y
i
)
−
1
N
∑
i
=
1
N
f
(
x
i
,
y
~
i
)
\hat{\Delta}\left(f, p_{x y}, p_{x} p_{y}\right)=\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}, y_{i}\right)-\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}, \tilde{y}_{i}\right)
Δ^(f,pxy,pxpy)=N1∑i=1Nf(xi,yi)−N1∑i=1Nf(xi,y~i)
4.3. 固定特征空间中的 SIC
5. Measuring Statistical Dependence with Hilbert-Schmidt Norms
11提出了一种基于 再生核希尔伯特空间(RKHSs) 中协方差算子特征谱的独立性标准,利用 交叉协方差算子(cross-covariance operator) 的整个频谱来确定,即奇异值的平方之和——其平方希尔伯特-施密特范数。① 它比其他的核依赖测试方法简单,并且不需要用户定义规则。② 它在大数据样本量的情况下能以指数收敛到一个好的结果。最后使用 独立成分分析(ICA) 验证了算法的优越性。
5.1. 再生希尔伯特空间理论
cross-covariance operator -vs- covariance operator
:
简而言之,交叉协方差算子从一个空间映射到另一个空间,而协方差算子从一个空间映射到自身。在线性代数情况下:
the covariance is
C
x
x
:
=
E
x
[
x
x
⊤
]
−
E
x
[
x
]
E
x
[
x
⊤
]
C_{x x}:=\mathbf{E}_{\mathbf{x}}\left[\mathbf{x} \mathbf{x}^{\top}\right]-\mathbf{E}_{\mathbf{x}}[\mathbf{x}] \mathbf{E}_{\mathbf{x}}\left[\mathbf{x}^{\top}\right]
Cxx:=Ex[xx⊤]−Ex[x]Ex[x⊤],
the cross-covariance is
C
x
y
:
=
E
x
,
y
[
x
y
⊤
]
−
E
x
[
x
]
E
y
[
y
⊤
]
C_{x y}:=\mathbf{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{\top}\right]-\mathbf{E}_{\mathbf{x}}[\mathbf{x}] \mathbf{E}_{\mathbf{y}}\left[\mathbf{y}^{\top}\right]
Cxy:=Ex,y[xy⊤]−Ex[x]Ey[y⊤].
再生核希尔伯特空间(RKHSs)
:
假设一个希尔伯特空间
F
\mathcal{F}
F 包含了所有函数
f
:
X
→
R
f:\mathcal{X} \rightarrow \mathbb{R}
f:X→R。如果对于
∀
x
∈
X
\forall x\in \mathcal{X}
∀x∈X,其对应的求值泛函
δ
x
:
F
→
R
δ_x : \mathcal{F} → R
δx:F→R 都线性有界,即
∀
x
,
∣
δ
x
(
f
)
∣
=
∣
f
(
x
)
∣
≤
M
∣
∣
f
∣
∣
\forall x, |δ_x(f)| = |f(x)| \leq M||f||
∀x,∣δx(f)∣=∣f(x)∣≤M∣∣f∣∣。那么就称这个希尔伯特空间为再生核希尔伯特空间,那么对于
∀
x
∈
X
\forall x \in \mathcal{X}
∀x∈X,都有一个相应的
ϕ
(
x
)
∈
F
\phi(x) \in \mathcal{F}
ϕ(x)∈F,使得
<
ϕ
(
x
)
,
ϕ
(
x
′
)
>
=
κ
(
x
,
x
′
)
<\phi(x),\phi(x')> = \kappa(x,x')
<ϕ(x),ϕ(x′)>=κ(x,x′)。反过来可以证明,每个连续的核都对应一个可分解的 RKHS(有一组完备的正交基)。
希尔伯特-施密特范数(Hilbert-Schmidt norm)
:
设
C
:
G
→
F
C : \mathcal{G}→\mathcal{F}
C:G→F 是一个线性算子,
u
i
u_i
ui 和
v
j
v_j
vj 分别是
F
\mathcal{F}
F 和
G
\mathcal{G}
G 的正交基,则 HS范数可被定义为:
∥
C
∥
H
S
2
:
=
∑
i
,
j
⟨
C
v
i
,
u
j
⟩
F
2
\|C\|_{\mathrm{HS}}^{2}:=\sum_{i, j}\left\langle C v_{i}, u_{j}\right\rangle_{\mathcal{F}}^{2}
∥C∥HS2:=i,j∑⟨Cvi,uj⟩F2结果相当于矩阵
C
C
C 中所有元素的平方和。
希尔伯特施密特算子(Hilbert-Schmidt Operator)
:
如果 HS范数存在,那么一个线性算子被称为 希尔伯特施密特算子,希尔伯特施密特算子的集合
H
S
(
G
,
F
)
:
G
→
F
HS(\mathcal{G},\mathcal{F}): \mathcal{G} \rightarrow \mathcal{F}
HS(G,F):G→F 也是一个可分的希尔伯特空间,内积:
⟨
C
,
D
⟩
H
S
:
=
∑
i
,
j
⟨
C
v
i
,
u
j
⟩
F
⟨
D
v
i
,
u
j
⟩
F
.
\langle C, D\rangle_{\mathrm{HS}}:=\sum_{i, j}\left\langle C v_{i}, u_{j}\right\rangle_{\mathcal{F}}\left\langle D v_{i}, u_{j}\right\rangle_{\mathcal{F}} .
⟨C,D⟩HS:=i,j∑⟨Cvi,uj⟩F⟨Dvi,uj⟩F.
张量积(Tensor product)
:
设
f
∈
F
f \in \mathcal{F}
f∈F and
g
∈
G
g \in \mathcal{G}
g∈G. 那么张量积算子
f
⊗
g
:
G
→
F
f \otimes g: \mathcal{G} \rightarrow \mathcal{F}
f⊗g:G→F 被定义为
(
f
⊗
g
)
h
:
=
f
⟨
g
,
h
⟩
G
for all
h
∈
G
.
(f \otimes g) h:=f\langle g, h\rangle_{\mathcal{G}} \text { for all } h \in \mathcal{G} .
(f⊗g)h:=f⟨g,h⟩G for all h∈G.此外,可以计算
f
⊗
g
f \otimes g
f⊗g 的 HS范数:
∥
f
⊗
g
∥
H
S
2
=
⟨
f
⊗
g
,
f
⊗
g
⟩
H
S
=
⟨
f
,
(
f
⊗
g
)
g
⟩
F
=
⟨
f
,
f
⟩
F
⟨
g
,
g
⟩
G
=
∥
f
∥
F
2
∥
g
∥
G
2
\|f \otimes g\|_{\mathrm{HS}}^{2}=\langle f \otimes g, f \otimes g\rangle_{\mathrm{HS}}=\langle f,(f \otimes g) g\rangle_{\mathcal{F}} =\langle f, f\rangle_{\mathcal{F}}\langle g, g\rangle_{\mathcal{G}}=\|f\|_{\mathcal{F}}^{2}\|g\|_{\mathcal{G}}^{2}
∥f⊗g∥HS2=⟨f⊗g,f⊗g⟩HS=⟨f,(f⊗g)g⟩F=⟨f,f⟩F⟨g,g⟩G=∥f∥F2∥g∥G2
5.2. 交叉协方差算子
设
F
\mathcal{F}
F 和
G
\mathcal{G}
G 分别对应概率度量
p
x
p_x
px 和
p
y
p_y
py,设
x
,
y
x, y
x,y 投射到
F
,
G
\mathscr{F}, \mathcal{G}
F,G 上的值的均值元素分别为:
⟨
μ
x
,
f
⟩
F
:
=
E
x
[
⟨
ϕ
(
x
)
,
f
⟩
F
]
=
E
x
[
f
(
x
)
]
⟨
μ
y
,
g
⟩
G
:
=
E
y
[
⟨
ψ
(
y
)
,
g
⟩
G
]
=
E
y
[
g
(
y
)
]
\begin{aligned} \left\langle\mu_{x}, f\right\rangle_{\mathcal{F}}:=\mathbf{E}_{x}\left[\langle\phi(x), f\rangle_{\mathcal{F}}\right] &=\mathbf{E}_{x}[f(x)] \\ \left\langle\mu_{y}, g\right\rangle_{\mathcal{G}}\ :=\mathbf{E}_{y}\left[\langle\psi(y), g\rangle_{\mathcal{G}}\right] &=\mathbf{E}_{y}[g(y)] \end{aligned}
⟨μx,f⟩F:=Ex[⟨ϕ(x),f⟩F]⟨μy,g⟩G :=Ey[⟨ψ(y),g⟩G]=Ex[f(x)]=Ey[g(y)]此外:
∥
μ
x
∥
F
2
=
E
x
,
x
′
[
⟨
ϕ
(
x
)
,
ϕ
(
x
′
)
⟩
F
]
=
E
x
,
x
′
[
k
(
x
,
x
′
)
]
\left\|\mu_{x}\right\|_{\mathcal{F}}^{2}=\mathbf{E}_{x, x^{\prime}}\left[\left\langle\phi(x), \phi\left(x^{\prime}\right)\right\rangle_{\mathcal{F}}\right]=\mathbf{E}_{x, x^{\prime}}\left[k\left(x, x^{\prime}\right)\right]
∥μx∥F2=Ex,x′[⟨ϕ(x),ϕ(x′)⟩F]=Ex,x′[k(x,x′)]其中,
x
x
x 和
x
′
x'
x′ 是取自分布
p
x
p_x
px 的独立副本。
最终可以定义 交叉协方差算子 为:
C
x
y
:
=
E
x
,
y
[
(
ϕ
(
x
)
−
μ
x
)
⊗
(
ψ
(
y
)
−
μ
y
)
]
=
E
x
,
y
[
ϕ
(
x
)
⊗
ψ
(
y
)
]
⏟
:
=
C
~
x
y
−
μ
x
⊗
μ
y
⏟
:
=
M
x
y
.
C_{x y}:=\mathbf{E}_{x, y}\left[\left(\phi(x)-\mu_{x}\right) \otimes\left(\psi(y)-\mu_{y}\right)\right]=\underbrace{\mathbf{E}_{x, y}[\phi(x) \otimes \psi(y)]}_{:=\tilde{C}_{x y}}-\underbrace{\mu_{x} \otimes \mu_{y}}_{:=M_{x y}} .
Cxy:=Ex,y[(ϕ(x)−μx)⊗(ψ(y)−μy)]=:=C~xy
Ex,y[ϕ(x)⊗ψ(y)]−:=Mxy
μx⊗μy.
5.3. 希尔伯特-施密特独立标准(Hilbert-Schmidt Independence Criterion)
HSIC 定义
: 给定可分的 RKHSs
F
,
G
\mathcal{F}, \mathcal{G}
F,G 和一个联合分布
p
x
y
p_{x y}
pxy over
(
X
×
Y
,
Γ
×
Λ
)
(\mathcal{X} \times \mathcal{Y}, \Gamma \times \Lambda)
(X×Y,Γ×Λ),定义 HSIC 为相关的交叉协方差算子
C
x
y
C_{x y}
Cxy 的 平方 HS范数:
HSIC
(
p
x
y
,
F
,
G
)
:
=
∥
C
x
y
∥
H
S
2
⋅
\operatorname{HSIC}\left(p_{x y}, \mathcal{F}, \mathcal{G}\right):=\left\|C_{x y}\right\|_{\mathrm{HS}}^{2} \cdot
HSIC(pxy,F,G):=∥Cxy∥HS2⋅
为了计算,将 HSIC 写为核函数形式:
HSIC
(
p
x
y
,
F
,
G
)
=
⟨
C
~
x
y
−
M
x
y
,
C
~
x
y
−
M
x
y
⟩
H
S
=
E
x
,
y
,
x
′
,
y
′
[
⟨
ϕ
(
x
)
⊗
ψ
(
y
)
,
ϕ
(
x
)
⊗
ψ
(
y
)
⟩
H
S
]
−
2
E
x
,
y
[
⟨
μ
x
⊗
μ
y
,
ϕ
(
x
)
⊗
ψ
(
y
)
⟩
H
S
]
+
⟨
μ
x
⊗
μ
y
,
μ
x
⊗
μ
y
⟩
H
S
=
E
x
,
x
′
,
y
,
y
′
[
k
(
x
,
x
′
)
l
(
y
,
y
′
)
]
+
E
x
,
x
′
[
k
(
x
,
x
′
)
]
E
y
,
y
′
[
l
(
y
,
y
′
)
]
−
2
E
x
,
y
[
E
x
′
[
k
(
x
,
x
′
)
]
E
y
′
[
l
(
y
,
y
′
)
]
]
\begin{aligned} \operatorname{HSIC}\left(p_{x y}, \mathcal{F}, \mathcal{G}\right) &=\left\langle\tilde{C}_{x y}-M_{x y}, \tilde{C}_{x y}-M_{x y}\right\rangle_{\mathrm{HS}}\\ &= \mathbf{E}_{x, y, x^{\prime}, y^{\prime}}\left[\langle\phi(x) \otimes \psi(y), \phi(x) \otimes \psi(y)\rangle_{\mathrm{HS}}\right] \\ &\ \ \ \ -2 \mathbf{E}_{x, y}\left[\left\langle\mu_{x} \otimes \mu_{y}, \phi(x) \otimes \psi(y)\right\rangle_{\mathrm{HS}}\right]+\left\langle\mu_{x} \otimes \mu_{y}, \mu_{x} \otimes \mu_{y}\right\rangle_{\mathrm{HS}}\\ &= \mathbf{E}_{x, x^{\prime}, y, y^{\prime}}\left[k\left(x, x^{\prime}\right) l\left(y, y^{\prime}\right)\right]+\mathbf{E}_{x, x^{\prime}}\left[k\left(x, x^{\prime}\right)\right] \mathbf{E}_{y, y^{\prime}}\left[l\left(y, y^{\prime}\right)\right] \\ &\ \ \ \ -2 \mathbf{E}_{x, y}\left[\mathbf{E}_{x^{\prime}}\left[k\left(x, x^{\prime}\right)\right] \mathbf{E}_{y^{\prime}}\left[l\left(y, y^{\prime}\right)\right]\right] \end{aligned}
HSIC(pxy,F,G)=⟨C~xy−Mxy,C~xy−Mxy⟩HS=Ex,y,x′,y′[⟨ϕ(x)⊗ψ(y),ϕ(x)⊗ψ(y)⟩HS] −2Ex,y[⟨μx⊗μy,ϕ(x)⊗ψ(y)⟩HS]+⟨μx⊗μy,μx⊗μy⟩HS=Ex,x′,y,y′[k(x,x′)l(y,y′)]+Ex,x′[k(x,x′)]Ey,y′[l(y,y′)] −2Ex,y[Ex′[k(x,x′)]Ey′[l(y,y′)]]其中,
E
x
,
y
,
x
′
,
y
′
\mathbf{E}_{x, y, x^{\prime}, y^{\prime}}
Ex,y,x′,y′ 代表从分布
p
x
y
p_{xy}
pxy 中提取的独立对
(
x
,
y
)
(x,y)
(x,y) 和
(
x
′
,
y
′
)
(x',y')
(x′,y′) 上的期望。
Appendix A:
由式
(
13
)
(13)
(13) 且
B
B
B 是上三角矩阵,
ϵ
=
Z
−
B
T
Z
=
(
I
−
B
T
)
Z
=
(
I
−
B
)
T
Z
\epsilon = \mathbf{Z} - B^T\mathbf{Z} = (I-B^T)\mathbf{Z} = (I-B)^T\mathbf{Z}
ϵ=Z−BTZ=(I−BT)Z=(I−B)TZ,则有:
c
o
v
(
ϵ
)
=
E
[
(
ϵ
−
E
(
ϵ
)
)
(
ϵ
−
E
(
ϵ
)
)
T
]
=
E
[
(
I
−
B
)
T
(
Z
−
E
(
Z
)
)
(
Z
−
E
(
Z
)
)
T
(
I
−
B
)
]
=
(
I
−
B
)
T
E
[
(
Z
−
E
(
Z
)
)
(
Z
−
E
(
Z
)
)
T
]
(
I
−
B
)
=
(
I
−
B
)
T
c
o
v
(
Z
)
(
I
−
B
)
\begin{aligned} cov(\epsilon) &= E[(\epsilon - E(\epsilon))(\epsilon - E(\epsilon))^T] \\ &=E[(I-B)^T(\mathbf{Z} - E(\mathbf{Z}))(\mathbf{Z} - E(\mathbf{Z}))^T(I-B)] \\ &=(I-B)^TE[(\mathbf{Z} - E(\mathbf{Z}))(\mathbf{Z} - E(\mathbf{Z}))^T](I-B) \\ &=(I-B)^Tcov(\mathbf{Z})(I - B) \end{aligned}
cov(ϵ)=E[(ϵ−E(ϵ))(ϵ−E(ϵ))T]=E[(I−B)T(Z−E(Z))(Z−E(Z))T(I−B)]=(I−B)TE[(Z−E(Z))(Z−E(Z))T](I−B)=(I−B)Tcov(Z)(I−B)所以有
Σ
=
(
I
−
B
)
−
T
Ω
(
I
−
B
)
−
1
\Sigma = (I-B)^{-T}\Omega (I - B)^{-1}
Σ=(I−B)−TΩ(I−B)−1,进而
Θ
=
Σ
−
1
=
(
I
−
B
)
Ω
(
I
−
B
)
T
\Theta = \Sigma^{-1} = (I-B)\Omega (I - B)^{T}
Θ=Σ−1=(I−B)Ω(I−B)T
Appendix B:
首先有:
Ω
\Omega
Ω 是一个对角阵,因为对于任意
j
≠
k
j \neq k
j=k,
ϵ
j
⊥
⊥
ϵ
k
\epsilon_j\perp \!\!\! \perp\epsilon_k
ϵj⊥⊥ϵk,则有
E
[
ϵ
j
ϵ
k
]
=
E
[
ϵ
j
]
⋅
E
[
ϵ
k
]
=
0
\mathrm{E}[\epsilon_j\epsilon_k] = \mathrm{E}\left[\epsilon_{j}\right] \cdot \mathrm{E}\left[\epsilon_{k}\right]=0
E[ϵjϵk]=E[ϵj]⋅E[ϵk]=0。再结合式
(
14
)
(14)
(14),就可以得到引理1
:
Θ
j
k
=
−
σ
k
−
2
B
j
k
+
∑
ℓ
>
k
σ
ℓ
−
2
B
j
ℓ
B
k
ℓ
,
∀
j
<
k
,
Θ
j
j
=
σ
j
−
2
+
∑
ℓ
>
j
σ
ℓ
−
2
B
j
ℓ
2
,
∀
j
\begin{aligned} \Theta_{j k} &=-\sigma_{k}^{-2} B_{j k}+\sum_{\ell>k} \sigma_{\ell}^{-2} B_{j \ell} B_{k \ell}, & & \forall j<k, \\ \Theta_{j j} &=\sigma_{j}^{-2}+\sum_{\ell>j} \sigma_{\ell}^{-2} B_{j \ell}^{2}, & & \forall j \end{aligned}
ΘjkΘjj=−σk−2Bjk+ℓ>k∑σℓ−2BjℓBkℓ,=σj−2+ℓ>j∑σℓ−2Bjℓ2,∀j<k,∀j
进而就能得到定理1
:
对于任意
j
≠
k
j \neq k
j=k,如果
(
j
,
k
)
(j,k)
(j,k) 不是
M
(
G
)
\mathcal{M}(G)
M(G) 中的一条边,则
Θ
j
k
=
0
\Theta_{jk}=0
Θjk=0。
证明
:如果
(
j
,
k
)
(j,k)
(j,k) 不是
M
(
G
)
\mathcal{M}(G)
M(G) 中的一条边,则意味着在原来的图中,
j
j
j 、
k
k
k 互不为父节点 =>
B
j
k
=
0
B_{jk}=0
Bjk=0,且它们没有公共子节点 => 对于
l
>
k
l > k
l>k,
B
j
l
=
0
B_{jl}=0
Bjl=0 或
B
k
l
=
0
B_{kl}=0
Bkl=0。则由 引理1 可以证明定理的正确性。
Mandros P, Boley M, Vreeken J. Discovering reliable approximate functional dependencies[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017: 355-363. ↩︎
Zhang Y, Guo Z, Rekatsinas T. A statistical perspective on discovering functional dependencies in noisy data[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 861-876. ↩︎
Stephen H. Bach, Matthias Broecheler, Bert Huang, and Lise Getoor. 2017. Hinge-loss Markov Random Fields and Probabilistic Soft Logic. J. Mach. Learn. Res. 18, 1 (Jan. 2017), 3846–3912. ↩︎
Daphne Koller and Nir Friedman. 2009. Probabilistic Graphical Models: Principles and Techniques - Adaptive Computation and Machine Learning. The MIT Press. ↩︎
Po-Ling Loh and Peter Bühlmann. 2014. High-dimensional learning of
linear causal networks via inverse covariance estimation. The Journal
of Machine Learning Research 15, 1 (2014), 3065–3105. ↩︎Garvesh Raskutti and Caroline Uhler. 2018. Learning directed acyclic
graph models based on sparsest permutations. Stat 7, 1 (2018), e183. ↩︎Nicolai Meinshausen, Peter Bühlmann, et al. 2006. High-dimensional
graphs and variable selection with the lasso. The annals of statistics
34, 3 (2006), 1436–1462. ↩︎Jerome Friedman, Trevor Hastie, and Robert Tibshirani. 2008. Sparse inverse covariance estimation with the graphical lasso. Biostatistics 9, 3 (2008), 432–441. ↩︎
Mroueh Y, Sercu T, Rigotti M, et al. Sobolev independence criterion[J]. Advances in Neural Information Processing Systems, 2019, 32. ↩︎
Lorenzo Rosasco, Silvia Villa, Sofia Mosci, Matteo Santoro, and Alessandro Verri. Nonparametric sparsity and regularization. J. Mach. Learn. Res., 2013. ↩︎
Gretton A, Bousquet O, Smola A, et al. Measuring statistical dependence with Hilbert-Schmidt norms[C]//International conference on algorithmic learning theory. Springer, Berlin, Heidelberg, 2005: 63-77. ↩︎