标签传播（阅读笔记）

最新推荐文章于 2024-09-08 19:15:50 发布

poilkj110

最新推荐文章于 2024-09-08 19:15:50 发布

阅读量1.3k

点赞数 1

分类专栏：个人知识管理文章标签：半监督学习

本文链接：https://blog.csdn.net/poilkj110/article/details/78577410

版权

个人知识管理专栏收录该内容

1 篇文章

订阅专栏

本主题的结构：
第2章：以一个简单的标签传播算法为例，在图中传播标签。之后会讨论多种变形
第三章：讨论如何建立图。
第四章：在概率框架下构建标签传播使用高斯随机域。引入图拉普拉斯和谐波函数。也会介绍和electric networks, random walk, spectral clustering之间的联系。如类别不平衡问题，和包含额外分类器的问题也会讨论
第五章假设选择一个点并找到其真实标签。这是一个标准的激活学习理论。
第六章建立和高斯过程之间的练溪核矩阵被显示为平滑的图拉普拉斯倒数
第七章不再假设图已经给定和规定。而是我们参数化图权重，并学习最优超参。我们将讨论多种方法：证据最大化，熵最小，最小划分树
第八章将半监督学习问题转化到核学习。我们显示一个自然的核簇从图拉普拉斯中导出，并通过凸优化找到最优核函数
第九章讨论核条件随机域，和它潜在应用在半监督学习领域。
第二章标签传播：
$\{(x_1,y_1)... (x_l , y_l)\}$ 为有标记数据， $y\in \{1,...C\}$ ， $\{x_{l+1}, ... x_{l+u}\}$ 属于未标记数据，通常来说 $l\ll u$ . 其中 $n = l + u$ 我们经常使用L 和U表示有标记和无标记数据，我们假设类别C是已知的，所有标签都呈现在有标签数据中。我们学习一个为了U找到标签的直推问题。而为找到 $L\bigcup U$ 的标签的归纳学习将在第10章讨论。
直觉上我们想让更接近的数据点将有相同的标签。我们生成一个图其中节点表示所有数据点，包括有标记和无标记。其中节点i,j 之间的边表示它们之间的相似度。我们假设图是全连接的使用一下权重：

w i j = e x p (- | | x i - x j | | 2 α 2)

$w_{ij} =exp(-\frac{||x_i -x_j||^2}{\alpha^2} )$ （2.1）
其中

α $\alpha$ 为宽度超参。
2.2 算法
我们通过边来传播标签。更大的标签运行标签更容易通过。定义一个

n×n $n\times n$ 的概率转移矩阵P：

P i, j = P (i \to j) = w i j \sum n k = 1 w i k

$P_{i,j} = P(i\rightarrow j) = \frac {w_{ij}}{\sum_ {k=1}^n w_{ik}}$ （2.2）

Pij $P_{ij}$ 是从节点i到j的转移概率。定义一个

l×C $l\times C$ 的标签矩阵

YL $Y_L$ ，其中第i行是一个指示向量对于

yi,i∈L;Yic=δ(yi,c) $y_i , i\in L; Y_{ic} = \delta (y_i,c)$ . 我们计算soft labels f 对于每个节点。f是

n×C $n\times C$ 矩阵，每行表示为标签上的概率分布。f的初始化不重要（后续有证明）
标签传播算法：
1. 传播

f←Pf $f \leftarrow Pf$
2. 固定有标记数据

fL=YL $f_L = Y_L$
3. 重复1直到f 收敛
在第一步中，所有节点传播他们的标签到他们的近邻中，第二步很关键：我们想保持有标记数据作为标签源。不让初始的标签fade away，我们固定Yl。从有标记数据持续的Push，类别边界将被pushed从高密度区域并稳定在低密度gaps.
2.3 收敛
我们显示这个算法收敛到一个简单的解。让

f=(fLfU) $f = \left (\begin{array}{} f_L \\ f_U \end{array}\right)$ . 当fl 固定到Yl，我们只对fu感
兴趣，划分P为有标记和无标记的子矩阵

P = [P L L P U L P L U P U U]

$P = \left[ \begin{array}{} P_{LL} & P_{LU} \\ P_{UL} & P_{UU} \end{array} \right]$ (2.3)
我们的算法化简为

f U \leftarrow P U U f U + P U L Y L

$f_U \leftarrow P_{UU}f_U + P_{UL}Y_L$ (2.4)

f U = lim n \to \infty (P U U) n f 0 U + (\sum i = 1 n (P U U) i - 1) P U L Y L

$f_U = \lim_{n\rightarrow \infty} \left(P_{UU} \right)^n f_U^0 + \left(\sum_{i=1}^n (P_{UU})^{i-1} \right)P_{UL}Y_L$ （2.5）
其中

f0U $f_U^0$ 表示fu的初始值。接下来需要证明

(PnUU)f0U→0 $(P_{UU}^n )f_U^0 \rightarrow 0$ . P矩阵是行正则的，而Puu 是P的子矩阵，它遵循：

\exists γ < 1, \sum j = 1 u (P U U) i j \leq γ, \forall i = 1 . . . u

$\exists\gamma <1, \sum_{j=1}^u(P_{UU})_{ij}\le \gamma, \forall i =1 ... u$ (2.6)

第三章：什么才是好的图？
在标签传播中，用权重矩阵W表示。那么如何构造一个图呢？什么才是好图呢？在本章我们给出一些不同数据集上的样本。目标不是去严格定义一个“好”图，而是去说明基于半监督学习的图的假设。
一个好的图应该能够反映我们关于该领域的先验知识。这是参与者的能力去反馈一个好的图对于基于图的半监督学习，为了期待一个有用的输出。在本节中算法不直接处理关于图的构造。
3.1 样本一：手写数字
第一个例子是光学字符识别（OCR）对于手写数字。这些数字初始化时被处理为每张图片16*16大小的方格通过降采样和高斯平滑，其中像素值为0-255。我们显示为嘛基于点对欧式距离的图对于数字半监督学习行得通。自身欧氏距离是一个较差的相似度衡量。例如两图像具有较大的欧氏距离经管他们属于一个类别。然而欧式距离是一个很好的“局部”相似度量。当相似度很小时，我们希望两图像属于一个类别。考虑一个knn图基于欧式距离。近邻图像之间具有较小的欧式距离，有大量的未标记图像关于2数字，这就会有很多路径连接两张图片。标签传播可以通过这些路径传播，使得他们具有相同的类别。
我们可以标准化图像强度，或使用边检测或者其他不变特征而不是欧式距离。这应该被用到任何实际应用，图应该表达领域知识。
3.2 例子2：文本分类
第二个例子是文本分类在20News数据集。每个文本没有标题处理‘From’和‘Subject’行。每个文本被处理到tf.idf向量，without frequency cutoff, stemming, 或者停用词列表。From 和 Subject 行被包含了。我们衡量两文本之间的相似度u, v 使用cosine 相似度 $cs(u,v) = \frac{u^Tv}{|u||v|}$ . 类似欧式距离，cosine距离不是一个好的全局指标：来自相同类别的文本可以有很少共同的词。然而它是一个很好的局部指标。
基于cosine相似度的图在这个邻域能行得通。来自同样类别的文本区域引用另外一个，使得他们有很高的cosine相似度。图中很多路径是引证。即使在一个类别中第一和最后文本共享很少的相同次，他们也可以被分类到同一类别通过图。
3.3 例子3：The FreeFoodCam
在CMU大学有个休息室，在休息室中有一个webcam，以便于人们去看是否有食物。FreeFoodCam提供有趣的调查。收集10个人在一段时间内的webcam图像。这些数据被用作10中人物识别，也就是确定任务的姓名在FreeFoodCam图像中。数据包含5254张图片有且只有一个任务在里面。任务不复杂：
1.每个人物的图像在这4个月期间被捕获。人物会跟换衣服，剪头发，一个人甚至留胡子。我们模仿视频监控场景，其中人物首先被手动的标记，然后需要在接下来的几天内被识别出来。因此我们选择有标记数据在人物第一天出现，在其他图像中测试。这会比在同一天中测试要难，或者允许标记数据来自所有天。
2.FreeFoodCam是一个低质量的摄像头，每帧是640*/480所以远处的人脸很小，帧率地域0.5帧/每秒，在休息室中灯光是复杂和变化的。
3.人物会背对摄像头，三分之一的图像中没有人脸。
尽管只有少量图像被标记，但我们有所有测试图像，这是很自然应用半监督学习技术。我们只使用主要的图像处理方法来提取一下特征：
Time。每个图像都有时间戳
前景色彩直方图。一个简单的背景提取算法被用到每个图像来找到前景区域。前景区域被假设为人物。我们计算前景的色彩直方图（色度，饱和度和明亮度）这个直方图是一个100维向量。
4. 脸部图像。我们应用一个脸部检测器到每个图像中。注意这不是一个脸部recognizer。它简单地检测正面或者轮廓脸的出现。输出是估计的中心和检测脸的半径。我们采用平方区域在中心周围。若无脸被检测，图形为空。
一个主题是图应该反映相似度的领域知识。FreeFoodCam是一个很好的例子。在图中的所有节点是所有图像。当满足一下条件时使用边连接两图片：
1.Time edges 人们一般在休息室移动时是以中速移动，因此近邻帧可能包含同一个人。我们在图中使用边连接来表示这个想法，在时间上的不同少于阈值t1（通常是几秒）的两图片ij。
2.Color edges色彩直方图很大程序由人物衣服决定。我们假设不同日期人物会跟换衣服，所以色彩直方图在多天内是无法使用。然而这是一个有信息的特征在一个短时间段t2例如半天。在每个图像i在图中，我没找到图像集合具有时间不同点基于（t1,t2）并连接i和它的k近邻（就在直方图上的cosine相似度）kc是一个很小的数，例如3
3.脸边。我们在更大的时间间隔中求助于脸部相似度。对于每个具有脸部的图像i，我们知道超过t2时间的图像集合，并连接i和它的kf近邻。我们使用像素级欧式距离在脸部图像之间（脸部图像对被缩放到相同尺寸）
最终的图是这三种边联合起来的。在实验中边是未加权的（也可以对于不同边学习不同权重。例如可能给time edges更高的权重）我们使用t1=2秒，t2 = 12小时，Kc = 3 kf = 1。
3.4 共同的方式去创建图
有时在数据集中一个脸部具有有限的领域知识。这节讨论多种共同的方式去创建一个图作为起始点。
全连接图：一个可以创建一个全连接图每个点对之间都有边连接。这个图需要加权以便于相似的节点有更大的边权。全连接图的优点在于权重学习-具有可导的权重函数，一个可以简单求导，关于权重超参。缺点在于计算代价大当图是密集（尽管有时可以应用快速近似算法例如N-body问题）。我们观察到经验上全连接图比稀疏图表现更差
稀疏图：可以生成Knn图或者 $\epsilon nn$ 图，其中每个几点只连接几个点。这种稀疏图计算很快，经验上也具有很好的表现。我们推测这是因为不同相似的点之间虚假的连接被移除了。在稀疏图中，边可以是有向或者无向的。缺点在于权重学习，权重超参的变化可能改变近邻。
knn图，节点ij相连当i是j的k近邻，反之亦然。k是超参，控制图的密度。knn具有很好的属性关于适应性规模”adaptive scales”，因为近邻半径是不同的在低和高数据密度区域。小的k可能导致不连接图。在标签传播中这不是一个问题当每个连通分量都有一些标记的点。
$\epsilon nn$ 图。节点ij相连，当ij之间距离小于 $\epsilon$ 。超参 $\epsilon$ 控制这近邻的半径。经过 $\epsilon$ 是连续的，对于最优值的搜索是离散的，具有至多O(n^2)个值（图中边的长度）
tanh-weighted 图 $w_{ij} = (tanh(\alpha_1 (d(i,j) - \alpha_2)) + 1)/2$ 双曲正切函数是一个”soft step”函数，模拟 $\epsilon NN$ 当 $d(i,j)\gg \alpha_2, w_{i,j} \approx 0; d(i,j)\ll \alpha_2 , w_{i,j} \approx 1$ . 超参 $\alpha_1, \alpha_2$ 控制斜率和截距。直觉是产生一个soft截距around 距离a2, 以便于接近的样本（来自相同类别）就相连并且不同类别的样本（具有大距离）不相连。不同于 $\epsilon NN$ ，tanh权重图关于a1, a2连续，能够使用梯度方法学习。
exp权重图 $w_{i,j} = exp(-d(i,j)^2/\alpha ^2)$ 。这也是连续权重，但截距如tanh清晰。超参a控制衰减率。当d 例如欧式距离，能有每个特征维度一个超参。
这些权重函数都是潜在有用的，当我们没有足够领域知识。然而我们观察加权knn图具有小的k时经验上表现更好。所有图构造方法都有超参、
一个图使用n*n权重矩阵W 表示 wij =0 表示节点ij之间没有边连接。我们指出W没一定为半正定。不需要满足度量条件。只要W的实体是非负的和对称的，图拉普拉斯，一个很重要的量，将可以很好的定义并且是半正定的。

第四章：高斯随机域和调和函数
在本章我们使用一个概率框架形式化表达标签传播。不失一般性，我们假设二元分类 $y\in \{0,1\}$ 。我们假设n*n权重矩阵给定，W是对称的具有非负实体，但其他不一定为半正定的。直觉上W特定了点之间的局部相似度。我们的任务是对未标记数据分配标签。
4.1 高斯随机域
我们的策略是定义一个连续的随机域在图中。首先我们定义一个实值函数在点 $f: L\bigcup U \rightarrow R$ . 注意f可以为负或者大于1。我们想要相似（通过边权决定）的未标记点具有相似的标签。得到一个二次能量函数：