基于统计模型的代价敏感主动学习(Cost-sensitive active learning through statistical methods)——CATS
主动学习的标签获取
在许多实际应用中, 数据规模庞大但是质量低下,具有精确标记信息的数据尤其稀少。其次,数据分析任务的难度越来越高,许多学习任务仅仅依靠机器已经难以达到实用的效果。因此,人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下,主动学习从传统查询样本标记衍生出更多的查询方式,从用户获取更丰富的监督信息。目前,针对不同的领域,已经出现大量的标签获取方法的研究工作,例如:
1.基于密度聚类的主动学习(ALEC)
通过找到聚类中心,聚类中心的特点是密度高于邻居,与密度较高的实例相距较远。再为每个中心实例构建集群,以递归方式将集群索引分配给非中心实例,最终生成块信息表。该算法需要用户输入半径和阈值,这将降低聚类的准确性,并需要准确找到根节点,一旦错误将会导致分类错误,从而引起代价增加。
2.基于标签均匀分布模型的代价敏感模型(CADU)
考虑错误分类和教师代价来确定查询的标签数量。首先假设数据的模型是均匀分布的,在这种情况下实例数量N通常很大。然后查询许多标签,一旦查询的标签不相同,就将块分成两部分。此外,假如有足够数量的正(负)标签,就可以预测该块的其他标签,直到查询或分类每个实例,此过程终止。该算法是在假设数据都是服从均匀分布的前提下的,但数据并不是都服从均匀分布,所以聚类具有偶然性,可能会增加代价,并且只能用于“类圆形”聚类,不可用于任意形状的聚类。
针对上述不足,本文提出了基于统计模型的代价敏感主动学习:
1.可以降低样本的复杂性,即通过查询需要的标签数量来选择关键实例,达到最小化代价的目的。
2.通过引入集群构建实际标签分布模型,减少了所需标注实例的数量,降低了样本的复杂度。
基于统计模型的代价敏感主动学习
该算法通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型,得到所需要购买的标签数量,以达到降低购买标签所需代价的目的。同时,设计了CATS算法,查询和预测数据集。
1. 一般模型:
定理1.(离散的一般分布)假设 ∣ X ∣ = n |X| = n ∣X∣=n且 P ( i ) P(i) P(i) 是X中存在 i i i 个正实例的概率。所以从 X X X中随机抽取 R R R个正实例和 B B B个负实例的条件概率是:
P ( R ∗ ∣ R , B ; n ) = P ( R ∗ ) A R ∗ R A n − R ∗ B ∑ i = 0 n P ( i ) A i R A n − i B . P(R^* \left| R, B; n) = \right.\frac{P(R^*) A_{R^*}^R A_{n - R^*}^B}{\sum_{i = 0}^n {P(i) A_i^R A_{n - i}^B}}. P(R∗∣R,B;n)=∑i=0nP(i)AiRAn−iBP(R∗)AR∗RAn−R∗B.
定理2. 正实例的期望是:
r ‾ ( n , R , B ) = ∑ i = R n − B i P ( i ) A i R A n − i B n ∑ i = R n − B P ( i ) A i R A n − i B . \overline{r}(n, R, B) = \frac{ {\sum_{i = R}^{n - B}{i P(i) A_{i}^R A_{n - i}^B}}}{ {n \sum_{i = R}^{n - B} {P(i) A_i^R A_{n - i}^B}}}. r(n,R,B)=n∑i=Rn−BP(i)AiRAn−iB∑i=Rn−BiP(i)AiRAn−iB.
同理,负实例的期望是:
b ‾ ( n , R , B ) = ∑ i = B n − R i P ( i ) A i B A n − i R n ∑ i = B n − R P ( i ) A i B A n − i R . \overline{b}(n, R, B) = \frac{ {\sum_{i = B}^{n - R} {i P(i) A_{i}^B A_{n - i}^R}}}{ {n \sum_{i = B}^{n - R} {P(i) A_i^B A_{n - i}^R}}}. b(n,R,B)=n∑i=Bn−RP(i)AiBAn−iR∑i=Bn−RiP(i)AiBAn−iR.
2. 高斯分布模型
高斯分布是自然界最常见的分布,也是具有最差聚类性能的分布。单个实例服从伯努利分布,大多数数据集的标签分布遵循高斯分布。
假设1. 在 X X X中存在 i i i个正实例的概率是:
P ( i ∣ p ) = C n i p i ( 1 − p ) ( n − i ) , i = 0 , 1 , ⋯ , n , P(i | p) = C_n^i{p^i}{(1 - p)^{(n - i)}}, i = 0, 1, \cdots, n, P(i∣p)=Cnipi(1−p)(n−i),i=0,1,⋯,n,
其中: C n i = n ! i ! ( n − i ) ! C_n^i = \frac{n!}{i!(n - i)!} Cni=i!(n−i)!n!.
定理3. 假设从 X X X中随机抽取的 R R R个正实例和 B B B个负实例。 X X X中存在 R ∗ R^* R∗正实例的概率是:
P ( R ∗ ∣ R , B ; n ) = C n R ∗ ( p ) R ∗ ( 1 − p ) ( n − R ∗ ) A R ∗ R A n − R ∗ B ∑ i = 0 n C n i ( p ) i ( 1 − p ) ( n − i ) A i R A n − i B . P(R^* \left| R, B; n) = \right.\frac{C_n^{R^*} {(p)^{ {R^*}}}{(1 - p)^{(n - {R^*})}} A_{R^*}^R A_{n - {R^*}}^B} {\sum_{i = 0}^n {C_n^i {(p)^{ {i}}}{(1 - p)^{(n - {i})}} A_i^R A_{n - i}^B}}. P(R∗∣R,B;n)=∑i=0nCni(p)i(1−p)(n−i)AiRAn−iBCnR∗(p)R∗(1−p)(n−R∗)AR∗RAn−R∗B.
定理4. 正实例的预期比例是:
r ˉ ( n , R , B ) = ∑ i = R n − B i C n i ( p ) i ( 1 − p ) ( n − i ) A i R A n − i B n