主动学习: 从三支决策到代价敏感

最新推荐文章于 2024-01-07 02:10:42 发布

闵帆

最新推荐文章于 2024-01-07 02:10:42 发布

阅读量605

点赞数 1

分类专栏：学术报告文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/minfanphd/article/details/120419770

版权

学术报告专栏收录该内容

12 篇文章 2 订阅

订阅专栏

摘要：主动学习通过人机交互，使用更少的标签获得良好的分类能力。使用三支决策，在每轮将样本分为查询、分类、待处理三个区域，并在交互过程中不断减少待处理区域数据量，最终获得分类结果。在实际应用中，需要综合考虑测试代价、标签查询代价、误分类代价的折中，以最小化总代价为目标，获得最优解决方案。

1. 主动学习 Active learning

1.1 监督学习 Supevised learning

图 1. 原始数据

表 1. 结构化数据

No.	sepal-length	sepal-width	petal-length	petal-width	class
$x_1$	5.1	3.5	1.4	0.2	Iris-setosa
$x_2$	4.6	3.4	1.4	0.3	Iris-setosa
$x_3$	6.6	2.9	4.6	1.3	Iris-versicolor
$x_4$	5.2	2.7	3.9	1.4	Iris-versicolor
$x_5$	6.9	3.2	5.7	2.3	Iris-virginica
$x_6$	5.6	2.8	4.9	2.0	Iris-virginica

上午给定 100 个带标签样本, 需要使用它们建立分类器
下午给定 500 个新样本, 要求分类
标签为枚举型时称为分类, 标签为实数值则为回归

1.2 半监督学习 Semi-supervised learning

上午给定 1000 个样本, 其中仅 100 个带标签. 需要使用它们建立分类器
下午给定 500 个新样本, 要求分类
问题: 上午的 900 个样本对于提升分类器的精度有没有帮助?

1.3 主动学习 Active learning

图 2. 主动学习场景

(close world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器对其它 900 个样本进行分类
(open world) 上午给定 1000 个样本, 有权查询其中 100 个样本, 并建立分类器. 下午给定 500 个新样本, 要求分类

2. 三支主动学习

基于聚类的主动学习
样本处于三种状态: 被查询、被分类、延迟处理

图 3. 三支主动学习

2.1 ALEC 算法

图 4. ALEC 算法运行示例

Step 1. 根据 Density peaks 将数据组织成一棵树, 同时计算每个对象的代表性;
Step 2. 查询当前块代表性最高的若干样本;
Step 3. 如果被查询样本具有同样的标签, 则认为当前块纯了, 将其余样本全部打上同样标签;
Step 4. 否则将当前块分裂为两块, 递归到下一级的 Step 2;
注意: 这里涉及到递归调用, 并不是这样简单. 代码及分析见日撸 java 三百行第 66-68 天内容
Min Wang, Fan Min, Yan-Xue Wu, Zhi-Heng Zhang, Active learning through density clustering, Expert Systems with Applications 85 (2017) 305–317. (66 次引用)

2.2 TACS 算法

图 5. TACS 算法运行示例

问题的提出: 聚类算法这么多, 用哪种好?
解决方案: 对于当前块, 谁的效果好就用谁
Fan Min, Shi‑Ming Zhang, Davide Ciucci, Min Wang. Three‑way active learning through clustering selection. International Journal of Machine Learning and Cybernetics . (2020-03)1033–1046. (10 次引用)

3. 代价敏感主动学习

3.1 CADU 算法

图 6. CADU 算法运行示例

问题的提出: 对预定的查询数不满意怎么办
解决方案: 买标签
涉及代价: 查询代价、误分类代价
Yan-Xue Wu, Xue-Yang Min, Fan Min, Min Wang. Cost-sensitive active learning with a label uniform distribution model. International Journal of Approximate Reasoning. (2019-02)49-65. (13 次引用)

图 6 期望代价与标签查询数之间的关系

Assumption 1. (The discrete uniform distribution assumption) Suppose that no label is known, i.e., $R = B = 0$ . The probability that there are ipositive instances in $\mathbf{X}$ is the same for any $\leq i \leq n$ . That is,
$\forall 0 \le i \le n\, P(R^* = i) = \frac{1}{n + 1} \tag{1}$

3.2 CATS 算法

图 8. 从实际数据和具体聚类算法统计获得的分布

问题的提出: 使用均匀分布假设合适吗?
解决方案: 统计获得实际数据的分布
Min Wang, Yao Lin, Fan Min, Dun Liu. Cost-sensitive active learning through statistical methods. Information Sciences. (2019) 460-482. (7 次引用)

4. 带标签噪声的主动学习

Min Wang, Ke Fu, Fan Min, Xiuyi Jia. Active learning through label error statistical methods.Knowledge-Based Systems. (2019-10)
Min Wang, Hong-Tian Yu, Fan Min. Noise label learning through label confidence statistical inference. Knowledge-Based Systems. (2021)107234.

小结

场景
问题
假设/模型/算法

进一步工作

多标签主动学习
多示例主动学习

欢迎批评指正!

闵帆

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
主动学习: 从三支决策到代价敏感

摘要：主动学习通过人机交互，使用更少的标签获得良好的分类能力。代价敏感主动学习则旨在获得标签查询代价、误分类代价之间良好的折衷。三支主动学习方法使用聚类算法，将样本分为查询、分类、待处理三个区域，并在交互过程中不断减少待处理区域数据量，最终获得分类结果。内容准备中，敬请期待！–...
复制链接

扫一扫

专栏目录