前言
讲述一篇发表在IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING(生物医学工程期刊)的文章‘Transfer Learning: A Riemannian Geometry Framework With Applications to Brain–Computer Interfaces’(迁移学习:黎曼几何框架应用于脑机接口)
文章介绍
本文探讨了脑电背景下的迁移学习问题基于脑电图的脑机接口(BCI)分类。我们提出对每个对象的协方差矩阵进行仿射变换,以使它们相对于参考协方差矩阵居中,使来自不同对象的数据具有可比性。使用标准最小距离均值分类器和文献中最近发展的基于SPD流形上定义的密度函数(混合黎曼高斯分布)的概率分类器进行分类。
模型建立
A. SPD矩阵流形的基本概念
定义黎曼度量:
δ
(
P
1
,
P
2
)
=
∥
log
(
P
1
−
1
/
2
P
2
P
1
−
1
/
2
)
∥
F
=
(
∑
i
=
1
n
l
2
λ
i
)
1
/
2
\delta \left( P_1,P_2 \right) =\left\| \log \left( P_{1}^{-1/2}P_2P_{1}^{-1/2} \right) \right\| _F=\left( \sum_{i=1}^n{\mathrm{l}^2}\lambda _i \right) ^{1/2}
δ(P1,P2)=∥∥∥log(P1−1/2P2P1−1/2)∥∥∥F=(i=1∑nl2λi)1/2
其中λ1, . . . , λn为
P
1
−
1
/
2
P
2
P
1
−
1
/
2
P_{1}^{-1/2}P_2P_{1}^{-1/2}
P1−1/2P2P1−1/2的特征值,
δ
(
⋅
,
⋅
)
\delta \left( \cdot \,\,, \cdot \right)
δ(⋅,⋅)有两种性质:
- δ ( P 1 − 1 , P 2 − 1 ) = δ ( P 1 , P 2 ) \delta \left( P_{1}^{-1},P_{2}^{-1} \right) =\delta \left( P_1,P_2 \right) δ(P1−1,P2−1)=δ(P1,P2)
- δ ( C T P 1 C , C T P 2 C ) = δ ( P 1 , P 2 ) ∀ C ∈ G L ( n ) \delta \left( C^TP_1C,C^TP_2C \right) =\delta \left( P_1,P_2 \right) \forall C\in GL(n) δ(CTP1C,CTP2C)=δ(P1,P2)∀C∈GL(n)
其中 G L ( n ) GL(n) GL(n)为可逆矩阵集合。
B. SPD矩阵集合的质心
已知一个SPD集合 ,其流形的几何均值(质心)需满足:
G
(
P
1
,
.
.
.
,
P
N
)
=
a
r
g
min
P
∈
P
(
n
)
∑
i
=
1
N
δ
2
(
P
i
,
P
)
\mathcal{G}\left( P_1,...,P_N \right) =\mathrm{arg}\min_{P\in P(n)} \sum_{i=1}^N{\delta ^2}\left( P_i,P \right)
G(P1,...,PN)=argP∈P(n)mini=1∑Nδ2(Pi,P)
一个重要不变性质是:
G
(
C
T
P
1
C
,
.
.
.
,
C
T
P
N
C
)
=
C
T
G
(
P
1
,
.
.
.
,
P
N
)
C
∀
C
∈
G
L
(
n
)
\mathcal{G}\left( C^TP_1C,...,C^TP_NC \right) =C^T\mathcal{G}\left( P_1,...,P_N \right) C \\ \forall C\in GL(n)
G(CTP1C,...,CTPNC)=CTG(P1,...,PN)C∀C∈GL(n)
C. SPD流形上的混合高斯分布
为了考虑一个概率模型,在
P
(
n
)
P\left( n \right)
P(n)空间上引入了一类叫做黎曼高斯分布的概率分布,记作
G
(
P
ˉ
,
σ
)
G\left( \bar{P},\sigma \right)
G(Pˉ,σ),取决于两个参数
P
ˉ
∈
P
(
n
)
,
σ
>
0
\bar{P}\in P\left( n \right) ,\sigma >0
Pˉ∈P(n),σ>0 。概率密度函数如下:
f
(
P
∣
P
ˉ
,
σ
)
=
1
ζ
(
σ
)
exp
(
−
δ
2
(
P
,
P
ˉ
)
σ
2
)
f(P\mid \bar{P},\sigma )=\frac{1}{\zeta (\sigma )}\exp \left( -\frac{\delta ^2(P,\bar{P})}{\sigma ^2} \right)
f(P∣Pˉ,σ)=ζ(σ)1exp(−σ2δ2(P,Pˉ))
其中
ζ
(
σ
)
\zeta (\sigma )
ζ(σ)是一个标准化函数。由此式子得知,
P
ˉ
\bar{P}
Pˉ的最大似然估计(MLE)与上式的质心重合。为了包括几种分布形状,我们考虑了黎曼高斯混合分布,其概率密度函数如下:
f
(
P
)
=
∑
m
=
1
M
w
m
f
(
P
∣
P
ˉ
m
,
σ
m
)
s
.
t
.
∑
m
=
1
M
w
m
=
1
f(P)=\sum_{m=1}^M{w_m}f\left( P\mid \bar{P}_m,\sigma _m \right) \\ s.t. \sum_{m=1}^M{w_m=1}
f(P)=m=1∑Mwmf(P∣Pˉm,σm)s.t.m=1∑Mwm=1
其中的参数可以通过EM(Expectation-Maximization)算法来计算。这类分布将用于为 P ( n ) P\left( n \right) P(n) 中的数据构建概率分类器。也就意味着这个分布的均值,方差,权值都是可以先计算出来的。
D. SPD流形中的分类技术
MDM(Minimum Distance to Mean)分类器定义为:给定K个类别和一个训练集的第k类的均值
C
^
(
k
)
\widehat{C}(k)
C
(k)
(质心),其中(k = 1, . . . , K),根据分类规则,将一个新的
C
i
C_i
Ci分配到第k类:
k
^
=
a
r
g
min
k
∈
{
1
,
.
.
.
,
K
}
{
d
R
(
C
i
,
C
^
(
k
)
)
}
\widehat{k}=\mathrm{arg}\min_{k\in \{1,...,K\}} \left\{ d_R\left( C_i,\widehat{C}(k) \right) \right\}
k
=argk∈{1,...,K}min{dR(Ci,C
(k))}
但是该算法考虑了新的
C
i
C_i
Ci 到质心
C
^
(
k
)
\widehat{C}(k)
C
(k) 的黎曼距离,却忽略了这组数据中方差的信息。由于参数σ编码在黎曼高斯分布,贝叶斯分类原理可以利用这种分布。那么提出了一种基于后验分布的分类准则:
k
^
=
a
r
g
min
k
∈
{
1
,
.
.
.
,
K
}
{
log
ζ
(
σ
^
(
k
)
)
+
d
R
2
(
C
i
,
C
^
(
k
)
)
2
σ
^
2
(
k
)
}
\widehat{k}=\mathrm{arg}\min_{k\in \{1,...,K\}} \left\{ \log \zeta (\widehat{\sigma }(k))+\frac{d_{R}^{2}\left( C_i,\widehat{C}(k) \right)}{2\widehat{\sigma }^2(k)} \right\}
k
=argk∈{1,...,K}min⎩⎨⎧logζ(σ
(k))+2σ
2(k)dR2(Ci,C
(k))⎭⎬⎫
其中 σ ^ ( k ) \widehat{\sigma }(k) σ (k)为第k类的方差。
BCI数据表示
A. 运动想象:数据建构
它包含9名受试者执行四种运动想象(右手、左手、脚和舌头想象运动)的脑电图数据。我们使用协方差矩阵定义为:
C
X
l
=
1
T
−
1
X
l
X
l
T
C_{X_l}=\frac{1}{T-1}X_lX_{l}^{T}
CXl=T−11XlXlT
其中 X l ∈ R n × T X_l\in \mathbb{R}^{n\times T} Xl∈Rn×T,n为电极数,T为考虑评估样本协方差的时间窗的样本点数。
B. 事件相关电位:数据构建
数据集包含:实验对象观看一个屏幕,屏幕上有36个外星人交替闪烁。他们被要求在心里计算特定(已知)目标外星人闪光的次数。但是如果我们随机打乱一个特定试验的时间瞬间,它的协方差矩阵的估计就会发生变化。所以在这个框架中,我们不能简单地考虑协方差矩阵
C
X
l
C_{X_l}
CXl,具体来说我们考虑了ERP的平均反应:
E
=
1
∣
K
+
∣
∑
l
∈
K
+
X
l
∈
R
n
×
T
E=\frac{1}{\left| K^+ \right|}\sum_{l\in K^+}{X_l}\in \mathbb{R}^{n\times T}
E=∣K+∣1l∈K+∑Xl∈Rn×T
其中
K
+
K^+
K+是目标试验组,建立增广矩阵 :
X
~
l
=
[
E
X
l
]
∈
R
2
n
×
T
\widetilde{X}_l=\left[ \begin{array}{c} E\\ X_l\\ \end{array} \right] \in \mathbb{R}^{2n\times T}
X
l=[EXl]∈R2n×T
然后考虑维数为2n × 2n的增广协方差矩阵:
C
~
X
~
l
=
[
l
C
E
C
E
X
l
C
X
l
E
C
X
l
]
\widetilde{C}_{\widetilde{X}_l}=\left[ \begin{matrix}{l} C_E& C_{EX_l}\\ C_{X_lE}& C_{X_l}\\ \end{matrix} \right]
C
X
l=[lCECXlECEXlCXl]
用于区分靶标和非靶标试验的相关信息被嵌入到块 C E X l C_{EX_l} CEXl中, C X l E C_{X_lE} CXlE是转置。