查询委员会方法(Query by Committee, QBC)

问题:Suppose you have a dataset for a binary classification task, but only a small subset of instances have labels. You wish to build an active learning model to classify the unlabelled instances. If you use the query by committee method with a 1-NN and 3-NN model, which instances will be sent to the oracle for labelling? (Be specific about what pattern of nearest neighbours these points would need to have in order to be selected.) Assume both models use the same distance metric and majority vote with no distance weighting.

假设您有一个用于二进制分类任务的数据集,但是只有一小部分实例具有标签。您希望构建一个主动学习模型来对未标记的实例进行分类。如果您使用委员会方法查询1-NN和3-NN模型,哪些实例将被发送到oracle进行标记?(具体说明这些点需要有什么样的近邻模式才能被选中。)假设两个模型使用相同的距离度量和没有距离加权的多数投票。

--------------------------------------------------------------------------------------------------------------------------------

题目刚读完很懵,翻译后依然很懵,把几个概念揉在一起就不太会了。

题目考查内容

主动学习(Active Learning):在有限标签资源下,通过选择最有价值的未标注实例来提升模型性能。

查询委员会方法(Query by Committee, QBC):利用多个模型的意见分歧来确定哪些实例最值得标注。

K近邻算法(K-NN):理解1-NN和3-NN模型的工作机制及其在分类中的应用。

不确定性评估:识别模型对某些实例预测不确定的情况。

原理解释

查询委员会方法(QBC)基本思想

使用多个不同的模型(委员会成员)对同一未标注实例进行预测。当这些模型的预测结果不一致时,说明该实例处于决策边界或数据分布复杂区域,是最具信息量的实例,值得进行标注。

1-NN和3-NN

1-NN(1-最近邻):预测一个实例的类别基于其最近的一个已标注邻居。

3-NN(3-最近邻):预测一个实例的类别基于其最近的三个已标注邻居的多数投票。

多数投票不一致

当1-NN和3-NN对同一个实例的预测结果不同,表明该实例周围的邻居类别分布不一致,模型对此实例的不确定性较高,故应优先标注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值