文章目录
Multi-Label Classification Using Conditional Dependency Networks
2011-IJCAI
1 介绍
在许多应用中,多个类标签之间存在强共现和相互依赖性。我们期望在分类期间提取类标签之间的依赖性来改进的分类性能。
在本文中,我们提出了一种基于条件循环有向图模型的新型多标签分类方法,我们将其命名为条件依赖网络。我们在标签变量上构造一个完全连接的依赖网络,其中每个变量依赖于所有其他类变量和输入特征变量。基于贝叶斯网络的方法相比,规避了相关的结构学习问题。
2 依赖网络
两种常用的图形模型是贝叶斯网络和马尔可夫网络(马尔可夫随机场)。
- 贝叶斯网络是有向非循环图形模型,其中每个节点表示一个变量,并且有向边通常表示变量之间的有序概率依赖性。贝叶斯网络中的参数通常编码给定其父项的每个变量的局部条件概率分布。确定最佳贝叶斯网络结构是NP难的[Chickering et al., 1994].
- 马尔可夫网络是一种无向图形模型,其中无向边编码变量之间的依赖关系。马尔可夫网络更适合捕获变量之间的无向相关和相互作用。马尔可夫网络学习比贝叶斯网络更难:参数学习通常需要推理,并且由于参数估计的困难,结构学习仍然是NP难问题。
依赖网络[Heckerman等,2000]是循环有向图形模型, 与贝叶斯网络类似,依赖网络中的边是定向的。
与贝叶斯网络不同的是,依赖网络的有向边不是有序关系,而是有序变量之间的依赖关系。此外,依赖网络,贝叶斯网络和马尔可夫网络之间的主要区别在于依赖网络近似于一组随机变量的联合分布,在获得条件分布之后,通过吉布斯采样推理技术得到联合分布。网络结构如下图所示
在本文中,我们将依赖网络扩展到一般的条件依赖网络,以解决多标签分类问题。在所提出的网络中,离散类标签变量Y在依赖性网络中彼此相互依赖,对观察特征X进行条件化。与每个变量 Y i Yi Yi相关联的条件概率分布是一般概率预测函数。
3 多标签分类模型
给定训练集 D = { ( x ℓ , y 1 ℓ , ⋯   , y k ℓ ) } ℓ = 1 t D = \left\{ \left( \mathbf { x } ^ { \ell } , y _ { 1 } ^ { \ell } , \cdots , y _ { k } ^ { \ell } \right) \right\} _ { \ell = 1 } ^ { t } D={(xℓ,y1ℓ,⋯,ykℓ)}ℓ=1t,其中 y i ℓ y _ { i } ^ { \ell } yiℓ 的值为 $ { - 1 , + 1 } $,所提出的模型通过训练k个二元分类器(其中k是类的数量)和用于预测测试实例的标签的吉布斯采样推断技术来允许简单的学习过程。
3.1 条件依赖网络
由于标签变量之间通常没有特定的影响方向,因此我们在Y变量上构建完全连接的依赖网络。也就是说,在每对变量
(
Y
i
,
Y
j
)
(Y_i,Y_j)
(Yi,Yj)之间存在双向边缘。如下图所示
在该条件依赖性网络中,标签相互依赖性的强度和从特征到标签的预测能力被编码在模型参数中,也就是在给定其所有父节点和X的情况下,与每个变量节点Yi相关联的条件概率分布(CPD)。
对于完全连接的网络,计算条件概率 p ( Y i = y i ∣ P a i = y p a i ) p \left( Y _ { i } = y _ { i } | P a _ { i } = \mathbf { y } _ { p a _ { i } } \right) p(Yi=yi∣Pai=ypai)时,其中 P a i = { Y 1 , ⋯   , Y i − 1 , Y i + 1 , ⋯   , Y k } P a _ { i } = \left\{ Y _ { 1 } , \cdots , Y _ { i - 1 } , Y _ { i + 1 } , \cdots , Y _ { k } \right\} Pai={Y1,⋯,Yi−1,Yi+1,⋯,Yk},会使条件分布表可能非常大。然而,在条件场景中,我们实际上可以通过使用概率预测函数来简化和推广CPD表示
在我们的模型中可以使用许多现有的标准二元概率分类器来参数化条件分布。在实验中,我们使用了正则化二元逻辑回归分类器,逻辑回归是用于概率分类的众所周知的统计模型。对于条件依赖关系网络的参数学习,我们训练k逻辑回归分类器和每个 p ( y i = ± 1 ∣ x , y ¬ i , θ i ) p \left( y _ { i } = \pm 1 | \mathbf { x } , \mathbf { y } _ { \neg i } , \boldsymbol { \theta } _ { i } \right) p(yi=±1∣x,y¬i,θi)
可以通过最大化训练数据的正则化可能性来训练模型参数
max
θ
i
∑
ℓ
=
1
t
log
p
(
y
i
ℓ
∣
x
ℓ
,
y
¬
i
ℓ
,
θ
i
)
−
λ
2
(
θ
i
⊤
θ
i
)
\max _ { \boldsymbol { \theta } _ { i } } \sum _ { \ell = 1 } ^ { t } \log p \left( y _ { i } ^ { \ell } | \mathbf { x } ^ { \ell } , \mathbf { y } _ { \neg i } ^ { \ell } , \boldsymbol { \theta } _ { i } \right) - \frac { \lambda } { 2 } \left( \boldsymbol { \theta } _ { i } ^ { \top } \boldsymbol { \theta } _ { i } \right)
θimaxℓ=1∑tlogp(yiℓ∣xℓ,y¬iℓ,θi)−2λ(θi⊤θi)
4 Gibbs采样用于近似推导
在训练的k逻辑回归模型之后,得到k个参数
{
θ
1
,
⋯
 
,
θ
k
}
\left\{ \boldsymbol { \theta } _ { 1 } , \cdots , \boldsymbol { \theta } _ { k } \right\}
{θ1,⋯,θk},这个时候来输入一个测试实例x,预测
y
=
{
y
1
,
⋯
 
,
y
k
}
\mathbf { y } = \left\{ y _ { 1 } , \cdots , y _ { k } \right\}
y={y1,⋯,yk},即得到
y
∗
=
arg
max
y
p
(
y
∣
x
)
\mathbf { y } ^ { * } = \arg \max _ { \mathbf { y } } p ( \mathbf { y } | \mathbf { x } )
y∗=argymaxp(y∣x)
由于我们的模型是贝叶斯网络的循环变量,因此我们对条件依赖网络的推理问题也是NP难的,这是一个很显然的推论。鉴于完全连通的结构和我们所拥有的广义条件概率表,Gibbs采样(对所有其他变量进行采样,对其进行采样)对于我们的模型比其他替代方案更合适。
Gibbs采样通过不断的迭代,通过条件概率来得出联合概率,首先给定一个初始值 y = { y 1 , ⋯   , y k } \mathbf { y } = \left\{ y _ { 1 } , \cdots , y _ { k } \right\} y={y1,⋯,yk},然后通过上一步得到的条件概率模型不断采样,最终得到联合概率
结论
在本文中,我们提出了一种新的广义条件依赖网络模型,用于多标签分类。所提出的条件依赖性网络是完全连接的双向图,其条件分布使用二元分类器来定义。该模型允许非常简单的训练过程,而其表示自然有助于在测试实例上进行简单的Gibbs采样推断。所提出的模型可以包含各种简单的分类算法,包括概率分类器和非概率分类器。我们在实验中使用两个基本分类器,逻辑回归和SVM测试了该模型。我们的实证结果表明,所提出的模型在利用多个标签的依赖性方面非常有效,并且已经证明了优于利用相同标签共现信息的一些替代多标签分类方法的优越性能。