【机器学习】主动学习-增加标签的操作方法-样本池采样（Pool-Based Sampling）

IT古董

已于 2025-01-14 10:00:17 修改

阅读量535

点赞数 4

分类专栏：机器学习文章标签：机器学习学习人工智能

于 2025-01-13 15:12:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/145116573

版权

Pool-Based Sampling

Pool-based sampling 是一种主动学习（Active Learning）方法，与流式选择性采样不同，它假设有一个预先定义的未标注样本池，算法从中选择最有价值的样本进行标注，以提升模型的性能。这种方法广泛应用于需要人工标注的场景，例如文本分类、图像识别等。

核心思想

预先准备一个 未标注数据池（Unlabeled Data Pool）。
使用初始标注数据训练一个模型。
算法根据特定的选择策略，从未标注池中挑选最有价值的数据点。
将选中的数据点交给 Oracle（标注者）进行标注。
用新标注的数据更新模型。
重复上述过程，直到达到停止条件（如标注预算耗尽或模型精度满足要求）。

主要步骤

初始化：
- 准备一个初始的小型标注数据集，用于训练初始模型。
- 定义一个未标注样本池。
选择样本：
- 基于选择策略，从未标注样本池中选出最有助于提升模型性能的样本。
Oracle 标注：
- 将选中的样本交由 Oracle（人工或自动标注系统）标注。
<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。