本文提出使用 Ising 模型的平均场论解法来解决半监督学习问题。
原文传送门
Wang, Fei, et al. "Semi-supervised mean fields." Artificial Intelligence and Statistics. 2007.
特色
这篇文章先介绍了 Ising 模型(这是一个很有趣的模型,记得本科电磁学课的小作业还写过 Ising 模型的模拟程序)。接下来这篇文章把半监督学习问题用 Ising 模型来建模,并且使用平均场方法(naive mean field approach)来解决。文章还指出,贝叶斯方法和该方法在本质上的联系;特别地,半监督学习问题的本质就是要利用数据标签在数据空间上的平滑特性,可以把数据空间建模为一个图(graph),这又和我们前面在研究的 spectral graph theory 有一定的联系。
过程
1. Ising 模型
考虑 N 个粒子,每个原子有一个自旋(spin),自旋是二值量子化的,只能够取向上或者向下两种情况,即
那么系统究竟处于哪一种状态下呢?考虑这是一个热力学系统,系统会以一定的概率处于某一个状态下,根据热力学的知识,一个粒子可分辨系统处于不同状态的概念遵循玻尔兹曼分辨,即系统处于状态
某个状态下的能量函数定义如下
其中求和符号表示对于系统中任意两个粒子对进行求和, J 表示这两个粒子对的相互作用能,
有了这样的模型之后,我们的问题是:如果给定相互作用能 J 和外场作用能
即,对于所有在第 i 个粒子上处于状态
接着,我们还可以写出该粒子自旋状态的均值:
我们可以看到,这里计算的难点就在于要计算几乎所有可能的状态的概率,并对其求和。然而,系统的状态数目随着粒子的数目呈指数级增长,因此这样直接计算的方法是不可行的。
2. 平均场方法求解 Ising 模型
其实,如果系统处于某个状态的概率(联合概率分布)如果具有某些好的性质,比如能拆分成多个独立的项,其实我们也能够比较方便地进行计算。观察系统处于某个状态的概率:
但是注意到,它并没有被拆分为多个独立的项,因为每一项都还是与全局其他粒子的自旋相关。接下来,就到了最为关键的一步了,就是把外界对于每一个粒子的作用都用一个平均场
考虑到每个粒子只有两种状态&#x