主动学习: 从三支决策到代价敏感

摘要:主动学习通过人机交互,使用更少的标签获得良好的分类能力。使用三支决策,在每轮将样本分为查询、分类、待处理三个区域,并在交互过程中不断减少待处理区域数据量,最终获得分类结果。在实际应用中,需要综合考虑测试代价、标签查询代价、误分类代价的折中,以最小化总代价为目标,获得最优解决方案。

1. 主动学习 Active learning

1.1 监督学习 Supevised learning

图 1. 原始数据

表 1. 结构化数据

No.sepal-lengthsepal-widthpetal-lengthpetal-widthclass
x 1 x_1 x15.13.51.40.2Iris-setosa
x 2 x_2 x24.63.41.40.3Iris-setosa
x 3 x_3 x36.62.94.61.3Iris-versicolor
x 4 x_4 x45.22.73.91.4Iris-versicolor
x 5 x_5 x56.93.25.72.3Iris-virginica
x 6 x_6 x65.62.84.92.0Iris-virginica
  • 上午给定 100 个带标签样本, 需要使用它们建立分类器
  • 下午给定 500 个新样本, 要求分类
  • 标签为枚举型时称为分类, 标签为实数值则为回归

1.2 半监督学习 Semi-supervised learning

  • 上午给定 1000 个样本, 其中仅 100 个带标签. 需要使用它们建立分类器
  • 下午给定 500 个新样本, 要求分类
  • 问题: 上午的 900 个样本对于提升分类器的精度有没有帮助?

1.3 主动学习 Active learning

图 2. 主动学习场景
  • (close world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器对其它 900 个样本进行分类
  • (open world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器. 下午给定 500 个新样本, 要求分类

2. 三支主动学习

  • 基于聚类的主动学习
    样本处于三种状态: 被查询、被分类、延迟处理
图 3. 三支主动学习

2.1 ALEC 算法

图 4. ALEC 算法运行示例
  • Step 1. 根据 Density peaks 将数据组织成一棵树, 同时计算每个对象的代表性;
  • Step 2. 查询当前块代表性最高的若干样本;
  • Step 3. 如果被查询样本具有同样的标签, 则认为当前块纯了, 将其余样本全部打上同样标签;
  • Step 4. 否则将当前块分裂为两块, 递归到下一级的 Step 2;
  • 注意: 这里涉及到递归调用, 并不是这样简单. 代码及分析见 日撸 java 三百行 第 66-68 天内容
  • Min Wang, Fan Min, Yan-Xue Wu, Zhi-Heng Zhang, Active learning through density clustering, Expert Systems with Applications 85 (2017) 305–317. (66 次引用)

2.2 TACS 算法

图 5. TACS 算法运行示例
  • 问题的提出: 聚类算法这么多, 用哪种好?
  • 解决方案: 对于当前块, 谁的效果好就用谁
    Fan Min, Shi‑Ming Zhang, Davide Ciucci, Min Wang. Three‑way active learning through clustering selection. International Journal of Machine Learning and Cybernetics . (2020-03)1033–1046. (10 次引用)

3. 代价敏感主动学习

3.1 CADU 算法

图 6. CADU 算法运行示例
  • 问题的提出: 对预定的查询数不满意怎么办
  • 解决方案: 买标签
  • 涉及代价: 查询代价、误分类代价
  • Yan-Xue Wu, Xue-Yang Min, Fan Min, Min Wang. Cost-sensitive active learning with a label uniform distribution model. International Journal of Approximate Reasoning. (2019-02)49-65. (13 次引用)
图 6 期望代价与标签查询数之间的关系

Assumption 1. (The discrete uniform distribution assumption) Suppose that no label is known, i.e., R = B = 0 R = B = 0 R=B=0. The probability that there are ipositive instances in X \mathbf{X} X is the same for any 0 ≤ i ≤ n 0 \leq i \leq n 0in. That is,
∀ 0 ≤ i ≤ n   P ( R ∗ = i ) = 1 n + 1 (1) \forall 0 \le i \le n\, P(R^* = i) = \frac{1}{n + 1} \tag{1} 0inP(R=i)=n+11(1)

3.2 CATS 算法

图 8. 从实际数据和具体聚类算法统计获得的分布
  • 问题的提出: 使用均匀分布假设合适吗?
  • 解决方案: 统计获得实际数据的分布
    Min Wang, Yao Lin, Fan Min, Dun Liu. Cost-sensitive active learning through statistical methods. Information Sciences. (2019) 460-482. (7 次引用)

4. 带标签噪声的主动学习

Min Wang, Ke Fu, Fan Min, Xiuyi Jia. Active learning through label error statistical methods.Knowledge-Based Systems. (2019-10)
Min Wang, Hong-Tian Yu, Fan Min. Noise label learning through label confidence statistical inference. Knowledge-Based Systems. (2021)107234.

小结

  • 场景
  • 问题
  • 假设/模型/算法

进一步工作

  • 多标签主动学习
  • 多示例主动学习

欢迎批评指正!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
三支决策(Three-way Decision)是一种基于符合人类认知的决策模式,它认为:人们在实际决策过程中,对于具有充分把握接受或拒绝的事物能够立即作出快速的判断;对于哪些不能立即作出决策的事物,人们往往会推迟对事件的判断,即:延迟决策。造成延迟决策的原因很多,比如:所掌握的信息不够充分、对风险的评估不够全面、对事件的认知不够彻底等。当人们对信息、风险、认知的掌握程度达到一定的水平,会作出接受或拒绝的最终判断,从这个角度说,三支决策是最终实现二支决策的一个中间步骤。此外,三支决策有着十分广泛的应用背景。例如:在论文的审稿过程中,对于一篇稿件,如果十分优秀则直接接收,如果质量太差则直接拒稿。但是在大多情况下,稿件可能具有一定的创新性,但技术、语言等方面都需要进一步提高,主编往往选择修改和重审。在医学治疗中,讲究听闻望切,对于一些小病而言,医生能够快速准确地作出有病或无病的诊断;而对于一些疑难杂症,需要通过进行一些检查才能进一步的确诊。三支决策的思想已在医学、工程、管理、信息领域得到了成功的应用。近几年来,对于三支决策和粒计算的研究引起了国内外学者的广泛关注,在2009-2012年连续四届国际粗糙集与知识技术学术会议(RSKT)以及2011-2012年连续两届中国粗糙集与软计算学术会议(CRSSC)上都举办了三支决策与粒计算的研讨会,李华雄等编著的《决策粗糙集理论及其研究进展》以及贾修一等编著的《三支决策理论与应用》推动了三支决策与粒计算的发展,国际著名SCI期刊《International Journal of Approximate Reasoning》和《Fundamenta Informaticae》等也先后出版专刊推动该主题的发展。粒计算(Granular Computing)是当前计算智能研究领域中模拟人类思维和解决复杂问题的新方法。它覆盖了所有有关粒度的理论、方法和技术,是研究复杂问题求解、海量数据挖掘和模糊信息处理等问题的有力工具。粒计算从提出到现在已有30多年,近年来受到了众多研究者的广泛关注,已经成为日益受到学术界重视的一个新的研究领域。随着粒计算研究工作的不断深入,人们从不同的角度研究得到不同的粒计算理论模型,主要有模糊集(词计算)理论模型、粗糙集理论模型、商空间理论模型和云模型等。我国学者开展了以国际、国内学术研讨会议和暑期研讨会等多种形式的粒计算学术交流与合作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值