Active Learning的简介

Active Learning旨在降低大规模数据集的标注成本。它通过动态选择最具影响力的数据进行标注,逐步提升模型性能。常见策略包括Least Confidence、Margin Sampling和Entropy Sampling。以sklearn的digit数据为例,应用这些策略的训练结果显示,它们相比随机选择能更有效地提高模型准确性。
摘要由CSDN通过智能技术生成

解决什么问题

  1. 数据标记有时候是个大问题,几百,几千,几万,十万,百万,千万的数据要一一标注的成本非常高。
  2. 引入active learning,是希望能减少数据标注的量。

是什么?

来自Active Learning: Your Model’s New Personal Trainer,如果侵权联系删除
训练的数据不是一开始全部给,而是选择比较有用的数据,慢慢动态地增加,如上图。

原理

在这里插入图片描述
一句话,就是训练数据对模型的贡献程度不同,尽量挑选那些关键的数据。比如上图平面的点分类问题,只需要在中间间隔的数据就够了,而明显在2边的数据则对我们的分割线没啥帮助。

如何做

重点在数据的选择方法,常用的有如下方法:

  • Least Confidence:
    当前model预测出的最不自信的那些数据,手工标注那些数据。
  • Margin Sampling:
    当前model预测出来,比较摸棱两可。预测出来2个label的概率,比较接近,不知道如何选择。
  • Entropy Sampling:
    熵,表示信息量的大小,选择信息量比较大的那些数据。
    在这里插入图片描述

例子

sklearn自带的digit数据

1.显示函数

from matplotlib import pyplot as plt
def show_imgs(imgs, columns):
    """
    imgs: a dict(OrderDict to keep the order), its format is {title0:numpy_array, title1:(x, y), ...}
    """
    fig = plt.figure(figsize=(12,12))
    rows = len(imgs)//columns
    begin = rows*100 + columns*10 + 1

    for index, (title, img) in enumerate(imgs.items()):
        ax = fig.add_subplot(begin + index)
        if isinstance(img, (tuple, list)) and
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值