基于统计模型的代价敏感主动学习(Cost-sensitive active learning through statistical methods)——CATS

本文介绍了基于统计模型的代价敏感主动学习算法——CATS,旨在解决在大规模数据集上标签获取的挑战。通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型,CATS算法能有效减少需要标注的实例数量,降低学习成本。文章详细探讨了算法的理论基础和实现步骤,包括实例选择、最佳查询数量的确定以及拆分策略,提供了MATLAB和Java代码实现及实验数据。
摘要由CSDN通过智能技术生成

基于统计模型的代价敏感主动学习(Cost-sensitive active learning through statistical methods)——CATS

主动学习的标签获取

在许多实际应用中, 数据规模庞大但是质量低下,具有精确标记信息的数据尤其稀少。其次,数据分析任务的难度越来越高,许多学习任务仅仅依靠机器已经难以达到实用的效果。因此,人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下,主动学习从传统查询样本标记衍生出更多的查询方式,从用户获取更丰富的监督信息。目前,针对不同的领域,已经出现大量的标签获取方法的研究工作,例如:

1.基于密度聚类的主动学习(ALEC)

通过找到聚类中心,聚类中心的特点是密度高于邻居,与密度较高的实例相距较远。再为每个中心实例构建集群,以递归方式将集群索引分配给非中心实例,最终生成块信息表。该算法需要用户输入半径和阈值,这将降低聚类的准确性,并需要准确找到根节点,一旦错误将会导致分类错误,从而引起代价增加。

2.基于标签均匀分布模型的代价敏感模型(CADU)

考虑错误分类和教师代价来确定查询的标签数量。首先假设数据的模型是均匀分布的,在这种情况下实例数量N通常很大。然后查询许多标签,一旦查询的标签不相同,就将块分成两部分。此外,假如有足够数量的正(负)标签,就可以预测该块的其他标签,直到查询或分类每个实例,此过程终止。该算法是在假设数据都是服从均匀分布的前提下的,但数据并不是都服从均匀分布,所以聚类具有偶然性,可能会增加代价,并且只能用于“类圆形”聚类,不可用于任意形状的聚类。

针对上述不足,本文提出了基于统计模型的代价敏感主动学习:

1.可以降低样本的复杂性,即通过查询需要的标签数量来选择关键实例,达到最小化代价的目的。
2.通过引入集群构建实际标签分布模型,减少了所需标注实例的数量,降低了样本的复杂度。

基于统计模型的代价敏感主动学习

该算法通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型,得到所需要购买的标签数量,以达到降低购买标签所需代价的目的。同时,设计了CATS算法,查询和预测数据集。
在这里插入图片描述

1. 一般模型:
定理1.(离散的一般分布)假设 ∣ X ∣ = n |X| = n X=n P ( i ) P(i) P(i) 是X中存在 i i i 个正实例的概率。所以从 X X X中随机抽取 R R R个正实例和 B B B个负实例的条件概率是:

P ( R ∗ ∣ R , B ; n ) = P ( R ∗ ) A R ∗ R A n − R ∗ B ∑ i = 0 n P ( i ) A i R A n − i B . P(R^* \left| R, B; n) = \right.\frac{P(R^*) A_{R^*}^R A_{n - R^*}^B}{\sum_{i = 0}^n {P(i) A_i^R A_{n - i}^B}}. P(RR,B;n)=i=0nP(i)AiRAniBP(R)ARRAnRB.

定理2. 正实例的期望是:

r ‾ ( n , R , B ) = ∑ i = R n − B i P ( i ) A i R A n − i B n ∑ i = R n − B P ( i ) A i R A n − i B . \overline{r}(n, R, B) = \frac{ {\sum_{i = R}^{n - B}{i P(i) A_{i}^R A_{n - i}^B}}}{ {n \sum_{i = R}^{n - B} {P(i) A_i^R A_{n - i}^B}}}. r(n,R,B)=ni=RnBP(i)AiRAniBi=RnBiP(i)AiRAniB.

同理,负实例的期望是:

b ‾ ( n , R , B ) = ∑ i = B n − R i P ( i ) A i B A n − i R n ∑ i = B n − R P ( i ) A i B A n − i R . \overline{b}(n, R, B) = \frac{ {\sum_{i = B}^{n - R} {i P(i) A_{i}^B A_{n - i}^R}}}{ {n \sum_{i = B}^{n - R} {P(i) A_i^B A_{n - i}^R}}}. b(n,R,B)=ni=BnRP(i)AiBAniRi=BnRiP(i)AiBAniR.

2. 高斯分布模型
高斯分布是自然界最常见的分布,也是具有最差聚类性能的分布。单个实例服从伯努利分布,大多数数据集的标签分布遵循高斯分布。
假设1. X X X中存在 i i i个正实例的概率是:

P ( i ∣ p ) = C n i p i ( 1 − p ) ( n − i ) , i = 0 , 1 , ⋯   , n , P(i | p) = C_n^i{p^i}{(1 - p)^{(n - i)}}, i = 0, 1, \cdots, n, P(ip)=Cnipi(1p)(ni),i=0,1,,n,

其中: C n i = n ! i ! ( n − i ) ! C_n^i = \frac{n!}{i!(n - i)!} Cni=i!(ni)!n!.

定理3. 假设从 X X X中随机抽取的 R R R个正实例和 B B B个负实例。 X X X中存在 R ∗ R^* R正实例的概率是:

P ( R ∗ ∣ R , B ; n ) = C n R ∗ ( p ) R ∗ ( 1 − p ) ( n − R ∗ ) A R ∗ R A n − R ∗ B ∑ i = 0 n C n i ( p ) i ( 1 − p ) ( n − i ) A i R A n − i B . P(R^* \left| R, B; n) = \right.\frac{C_n^{R^*} {(p)^{ {R^*}}}{(1 - p)^{(n - {R^*})}} A_{R^*}^R A_{n - {R^*}}^B} {\sum_{i = 0}^n {C_n^i {(p)^{ {i}}}{(1 - p)^{(n - {i})}} A_i^R A_{n - i}^B}}. P(RR,B;n)=i=0nCni(p)i(1p)(ni)AiRAniBCnR(p)R(1p)(nR)ARRAnRB.

定理4. 正实例的预期比例是:

r ˉ ( n , R , B ) = ∑ i = R n − B i C n i ( p ) i ( 1 − p ) ( n − i ) A i R A n − i B n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值