Active Learning through label error statistical methods(ALSE)

本文探讨了主动学习中的标签错误统计方法,包括单实例和实例对的统计函数,提出了一种新的主动学习算法(ALSE)。通过概率利普西茨假设,建立了理论模型并设计了实用统计模型,用于指导数据块的拆分和关键实例的选择。实验在20个数据集上展示了算法的有效性。
摘要由CSDN通过智能技术生成


文章链接
代码链接: python 3.6

欢迎大家引用~

@article{Wang2020Active,            
author = "Min Wang and Ke Fu and Fan Min and Xiu-Yi Jia", 
title = "Active learning through label error statistical methods",      
year = "2020"
journal = "Knowledge-Based Systems",
pages = "105140",        
issn = "0950-7051",                                                     
doi = "https://doi.org/10.1016/j.knosys.2019.105140"
}

基于概率误差统计方法的主动学习

基于聚类的主动学习将数据分为多个块,并查询最关键实例的标签。主动学习者必须决定如何选择这些关键实例以及如何拆分聚类块。在本文中,我们提出了理论和实用的统计方法来分析标签错误与邻居半径之间的关系,并设计新的拆分和选择解决这两个问题的策略。首先,我们基于单个实例和实例对定义标签错误的统计函数。其次,我们建立实用的统计模型,计算经验标签错误,并指导区块分割过程。第三,使用这些实用模型,我们开发了用于选择关键实例的中心和边缘实例选择策略。第四,我们设计了一种通过标签错误统计方法(ALSE)进行主动学习的新算法。使用来自各个领域的20个数据集(其中包括大量的UCI数据集)进行了学习实验。

算法实例框架

算法实例框架
先通过一个算法实例来快速讲解一下其间过程。第1部分是输入,其中包含两种类型的数据集: Iris(DB <1.2)和Sonar(DB> 1.2)。

第2部分是理论和实际的标签错误统计方法。理论标签错误统计方法提供了单实例标签错误统计函数 e s ( λ s ) e_s(λ_s) esλs和实例对统计函数 e p ( λ p ) e_p(λ_p) epλp。实用的标签错误统计模型提供了使用统计方法获得的两个经验标签错误函数 ϕ ( λ s ) ϕ(λ_s) ϕλs) ϕ ( λ p ) ϕ(λ_p) ϕλp

第3部分是使用Iris数据集进行迭代查询,拆分和预测的示例。通过聚类获得三种不同大小的聚类子块。三个簇的直径分别为 λ ′ λ' λ λ ′ ′ λ'' λ和λ’’’。对于块1, ϕ ( λ ′ ) < ε \phi(λ')<ε ϕ(λ<ε,我们选择代表性的实例5、23、41。由于 l ( 5 ) = l ( 23 ) = l ( 41 ) = 1 l(5)= l(23)= l(41)= 1 l5=l23=l41=1,所以块1是纯净的,我们将预测所有剩余的块实例。对于块2, ϕ ( λ ′ ′ ) < ε ϕ(λ'')<ε ϕλ<ε,在判断块2不纯的同时,我们需要对块进行拆分。对于块3, ϕ ( λ ′ ′ ′ ) > ε ϕ(λ''')>ε ϕλ>ε,我们将直接分割该块。通过这种方式,ALSE算法会迭代查询,拆分和预测,直到所有实例都获得标签为止。其中,图3.1先利用聚类算法聚合数据,聚类算法采用的是密度峰值聚类算法(clustering by fast search and find of density peaks),有兴趣的同学可以自行查阅,再次不在过多赘述。

第4部分是输出。

概率利普西茨假设

在许多机器学习的算法中,将“两两点之间离得越近的实例点标签越相似,离得越远的实例点标签越不相似。”的聚类假设当成是一种固有的性质。Urner等人[1]提出了概率利普西茨(PL)来量化这种性质。令S为一些独立同分布的未标记样本,由概率分布P生成。

定义1:(PL-Unary)当存在函数 ϕ \phi ϕ时,根据Urner给出的定义(称为PL-Unary)标签函数 l l l满足PL假设,使得:
Pr ⁡ [ ∃ y : d i s t ( x , y ) < λ ∧ l ( x ) ≠ l ( y ) ] ≤ ϕ ( λ ) \Pr[\exists y:{dist(x,y) < \lambda} \wedge l(x) \ne l(y)] \le \phi (\lambda) Pr[y:dist(x,y)<λl(x)=l(y)]ϕ(λ)
PL假设表明两个很接近的实例具有不同标签的概率是有界的且很小。这可以看作是标准利普西茨条件的松弛。
定义2:(PL-Conditional)当存在函数 ϕ \phi ϕ时,标签函数 l l l为PL条件,使得:
Pr ⁡ [ l ( x ) ≠ l ( y ) ∣ d i s t ( x , y ) < λ ] ≤ ϕ ( λ ) \Pr[l(x) \ne l(y)\left| {dist(x,y) < \lambda} \right.] \le \phi (\lambda) Pr[l(x)=l(y)dist(x,y)<λ]ϕ(λ)

理论标签误差统计方法

在本小节中,重新定义了两个标签误差统计函数。它们分别基于单实例以及实例对,并且通过这两个函数,分析了统计标签误差及其领域半径的关系。

单实例标签误差统计方法

邻居是标签误差统计的核心概念。
实例的邻居通常由距离或其它相似性指标确定。
(前面还有一个定义是决策系统的,请自性查阅~)

定义5: 领域半径为 λ s \lambda_s λs,定义 x ∈ U x\in U xU的邻居个数为:
N λ s ( x ) = { y ∈ U ∣ d i s t ( x , y ) ≤ λ s } N_{\lambda_s}(x)=\{y\in U|dist(x,y)\leq \lambda_s\} Nλs</

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值