主动学习（六）浅谈Multi-criteria 的鼻祖

最新推荐文章于 2024-08-10 08:20:54 发布

JYZhang_sh

最新推荐文章于 2024-08-10 08:20:54 发布

阅读量3k

点赞数 1

分类专栏：主动学习

本文链接：https://blog.csdn.net/jyzhang_cvml/article/details/61933537

版权

主动学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

　　本博客系原创作品，转载请注明出处：http://blog.csdn.net/JYZhang_CVML/article/details/61933537
　　主动学习小白博主又来和大家分享心得啦~ 拜读了号称是 multi-criteria 开山鼻祖的文章 multi-criteria-based active learning for named entity recognition。文章相隔年代久远，之前研究的一些文献经常用来做引用，对后来者用于 multi-criteria 具有相当的借鉴作用。下面所述只代表小白博主的个人理解，还是那句话欢迎大神拍砖指正。

背景

　　还是老生常谈的问题，为什么 uncertainty sampling 算法如此简单高效，但是很少有人仅仅只用这一种方法呢？其原因在于：uncertainty sampling 算法仅仅考虑单个样本的信息，没有考虑样本空间整体的分布情况，因此会导致找到 outlier 点，或者导致算法的挑选样本的冗余现象。
　　自然而然的想法，将样本空间整体分布考虑进去，就可以避免这样的现象出现。

创新点

　　下面是文章所述的创新点，小白博主不做任何评价~ 只是文献的搬运工：
　　(1) 联合利用 informativeness + representativeness + diversity 信息，同时提出了两种 active learning 框架有效地组合上述信息，来实现 batch-mode 更加有效的 active learning。（本文是第一次联合这三者信息）
　　(2) 首次将 active learning 用于 named entity recognition。（^_^不同的领域并不了解）
　　(3) 在 diversity 信息的判断方面，采用两种算法 global 和 local 。

算法

　　前面还有一些 named entity recognition 背景的问题，博主不是做自然语言的，这部分暂且略过，有兴趣的读者可以 google 本篇论文。

informativeness

　　本算法采用的SVM分类器，定义样本到分界面的距离：
　　这里写图片描述
　　直观来说，距离分界面越近的样本，具有比较大的 informativeness 。分类器对其具有比较大的不确定性，因此将其加入 labeled 样本对于修正分类器具有很好的作用。
　　Notice：本质上 informativeness 度量算法很多很多，有基于熵值的算法，有基于 margin 的算法，在此不再赘述，有兴趣的读者可以自行尝试。

Representativeness　　

　　直观来说，representativeness 信息可以通过有多少样本和该样本相似来衡量。因此，具有较大representativeness 的样本不可能是 outlier。
　　representativeness 的计算离不开 similarity 。传统的 similarity 的计算方法有： cosine-similarity 、Gaussian similarity、KL Divergence Similarity。本文采用的是 cosine-similarity：
　　这里写图片描述
　　因此，样本 i <script type="math/tex" id="MathJax-Element-1">i</script> 的 representativeness 信息通过 similarity 的均值计算得到：
　　

Diversity

　　要记住的是，通常来说 diversity 准则用来进行 batch-mode 的 active learning 算法的样本选择。采用 diversity 能够保证 batch-mode 的选择样本具有比较大的多样性，对分类器的有效训练具有很大帮助。
　　通常来说，diversity 的方法分成两类：Global的方法和Local的方法。
　　

global 方法
　　简单来说，就是通过聚类的方法，对未标记样本进行聚类，然后每次从不同的聚类中提取样本。这样可以保证所选择的样本之间具有比较大的 diversity 的程度。
　　
local方法
　　简单来说，计算待确定的样本与 batch 内已经选择的样本之间的 similarity 程度，若 similarity 程度 > 所设置的阈值，则认为该样本与之前所选择的样本相似度太高，不加入 batch 内。反之，若 similarity 程度 < 所设置的阈值，则认为具有较大的 diversity 程度，将其加入 batch 中。

　　总的来说，所谓 global 算法和 local 算法为什么有这样的名称的区别？我的理解是这样的，所谓 global 算法其本质就是利用对所有未标记样本的聚类方法，从而确保所选择样本之间的 diversity 程度（可以参考台湾科技大学某学生的硕士毕业论文中的 density 的方法）；所谓 local 算法其本质是利用样本和样本之间的 pair-wise 的 similarity 方法，显式地确保样本之间的 diversity 程度；

Multi-criteria 的结合

　　目前现有的 multi-criteria 的方法都是类似于串行的方法，首先进行 criteria_1 的样本选择，在选择到的样本的基础上进行 criteria_2 的样本选择，最后在上一步样本的基础上进行 criteria_3 的样本选择。
　　在本文算法的考虑，是如何结合 informativeness + representativeness + diversity。

方法一

　　首先通过 uncertainty sampling 的方法进行选择最具有 informativeness 的样本，对其初步选择得到的样本进行聚类，在聚类结构的基础上取聚类质心（保证这一步得到的样本具有 density 和 diversity 的性质）。
　　因此，选择的结果具有比较好的 informativeness 和 density 和 diversity 的性质。
　　该算法存在的问题，主要集中在聚类算法。（真的是成也萧何，败也萧何~~）首先，对于 informativeness 的样本并不能真正的反应数据分布（这就是串行的弊端）。其次，当聚类内样本数量很少的时候，该聚类质心也有可能是 outlier 点。（超经典的分析耶）

方法二

　　方法一是完全的串行方法，第一步的聚类方法导致了上述缺陷。因此方法二改用 半串行半并行 的方式。
　　首先用方程这里写图片描述来同时衡量 informativeness 和 representativeness 。然后再用 diversity 度量的第二种方法 local 方法，pair-similarity 地选择 diversity 比较大的样本。

Conclusion

　　通常来说，目前使用比较多的为类似于方法二的那种半并行半串行的方式，都是用一个式子联合考虑criterion。而那种纯串行的方法由于串行步骤，前面对后面的影响而实际效果并不好~
　　本文给出了 multi-criteria 的方法启迪，为后面无数做类似 multi-criteria 方法的提供了启发。