伪标签Pseudo Label 与软标签 soft label

最新推荐文章于 2023-09-19 11:36:06 发布

qq_478377515

最新推荐文章于 2023-09-19 11:36:06 发布

阅读量1.7k

点赞数 2

分类专栏：日paper阅读和实践技巧分析-计算机视觉文章标签：深度学习 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_33031419/article/details/128783917

版权

日paper阅读和实践技巧分析-计算机视觉专栏收录该内容

42 篇文章 0 订阅

订阅专栏

参考：

https://www.cnblogs.com/shona/p/13408970.html

https://blog.csdn.net/u014297502/article/details/127441976

soft label：软标签，例如：probs 0.3, 0,8, 0,2...

hard label：硬标签，例如：实际label值 0, 1, 2...

label选择

硬标签：使用会比较多一点，用于非是即非的任务上，例如是猫就是猫，是狗就是狗；

软标签：

1. 用于模棱两可的情况；

2. 用于蒸馏，例如，计算teacher模型的参数于student模型参数的loss，用硬标签会过于绝对，不利于student模型更好地学习teacher参数的分布和teacher的决策行为，当然也可以软硬标签都用上，不过在大规模无监督的蒸馏背景下，用soft label更为何时。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_478377515

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
伪标签Pseudo Label 与软标签 soft label

伪标签Pseudo Label 与软标签 soft label
复制链接

扫一扫

专栏目录

SINEL Soft标签软件

03-12

方便好用的标签打印软件，支持大小不一的标签打印，

基于pseudo label的语义分割

01-20

【基于pseudo label的语义分割】是一种半监督学习方法，主要应用于解决标注数据稀缺而无标签数据丰富的场景。语义分割任务通常需要大量的带标签图像，以便深度学习模型能够理解和学习图像中的各种对象和区域。然而，...

参与评论您还未登录，请先登录后发表或查看评论

【论文阅读】Pseudo-Labeling and Confirmation Bias in Deep Semi-Supervised Learning

来日可期的博客

05-14

851

总览半监督学习。提到半监督分类中的一致性正则。提到本文中适用了伪标签技术（soft pseudo-labels）。核心的贡献。提出了确认偏差（confirmation bias），本文贡献是证明了和是有效减少确认偏差的正则技术。这一点就很令人惊讶了，伪标签技术的方法超过了一致性正则的方法。还没看原文，应该是还没有出现FixMatch和FlexMatch方法。

伪标签汇总

Mark_Australia的博客

08-02

2287

伪标签

SoftLabel

whaosoft143ai的博客

11-27

1767

把InoNCE公式的分母想象成soft label的所有位置相加，也就是最大值的那个位置可以看成是positive pair，其他位置都可以看成是negative pair，softmax的损失函数不是跟InfoNCE损失函数一模一样了吗，异曲同工！，hard label监督下，由于softmax的作用，one-hot的最大值位置无限往1进行优化，但是永远不可能等于1，从上图可知优化到达一定程度时，优化效率就会很低，到达饱和区。hard label更容易标注，但是会丢失类内、类间的关联，并且引入噪声。

伪标签Pseudo Label

年少的勇气已经用完，剩下的就是三思而后行

10-21

5226

伪标签（）是半监督学习中的一个概念，能够帮助模型更好的从无标注的信息中进行学习。与完全的无监督学习相比，半监督学习拥有部分的标注数据和大量的未标注数据，这种形式也更加适合现实场景和竞赛场景。在现实，标注数据少，未标注数据多；在竞赛，训练集有标注，测试集未标注；那么如何完全将未标注的数据利用起来呢？在半监督学习中伪标签是其中的方法，具体思路如下：首先利用现有的标注数据，训练得到一个模型；利用训练得到的模型对无标注数据进行预测；然后将无标注数据的预测标签和数据加入训练集一起训练；

（2022，Soft Label）用于缓和面部表情噪声标签的带有软标签平滑的教师网络

qq_44681809的博客

03-09

547

本文提出了软标签平滑：对于高可信度的类别，基于其可信度分配给其一个概率；对于低可信度的类别，分配给其一个固定的低概率。

Meta_Pseudo_Labels：“元伪标签”的PyTorch实现

02-04

元伪标签安装套件 pip3 install SOTA-SSL 用法 import torch from SOTA_SSL_Models import SimSiam from torchvision import models model = SimSiam(args) 笔记我发现直接使用SimCLR增强有时会导致模型崩溃。这...

Pseudo-Label-Selection

04-12

伪标签选择该存储库提供了Salah Zaiem，Titouan Parcollet和Slim Essid撰写的“自我监督语音表示学习中的前置任务选择的条件独立性”代码。回购包含已完成计算的3个阶段。首先，计算TIMIT和VoxCeleb的CI估计值，...

MUTUAL MEAN-TEACHING PSEUDO LABEL REFINERY FOR UNSUPERVISED DO

06-02

计算机视觉Github开源论文 MUTUAL MEAN-TEACHING PSEUDO LABEL REFINERY FOR UNSUPERVISED DO- MAIN ADAPTATION ON PERSON RE-IDENTIFICATION

tags标签伪静态的方法

05-31

在IT领域，特别是网站开发与优化中，"伪静态"是一种常见的技术手段，它通过将动态页面URL转换为类似静态页面的URL格式，从而提升用户体验、SEO优化效果以及减轻服务器负担。本文将深入探讨“tags标签伪静态”的方法...

A Study of the Robustness of KNN ClassifiersTrained Using Soft Labels--论文阅读笔记

qq_42014059的博客

01-14

2146

摘要监督学习模型最常使用清晰标签进行分类器训练。当存在重叠类时，清晰的标签无法捕获数据特征。在这项工作中，我们尝试比较使用软标签和硬标签来训练 K 最近邻分类器的学习。我们提出了一种基于数据的模糊聚类和聚类原型的模糊重新标记来生成软标签的新技术。在五个数据集上进行了实验，以比较使用不同类型的软标签学习的分类器和使用清晰标签学习的分类器。结果表明，与使用清晰标签学习相比，使用软标签学习对标签错误的鲁棒性更强。还发现所提出的从数据中查找软标签的技术可以在所研究的大多数数据集中进行更稳健的训练。 1...

硬标签、软标签、单标签、多标签的概念

最新发布

zdt2018210321的博客

09-19

1692

单标签表示样本有多个类别，但一个样本只能属于一个类别，如：如三分类中，A,B,C三类，样本的单标签只能为A或B或C类，如果样本的单标签为A，那么样本对于A的硬标签是：样本属于A，样本不属于B,样本不属于C；的（该类别：如三分类中，A,B,C三类，A对于这个样本来说就是该类别，硬标签一定给出属于还是不属于，软标签却是用。值得注意的是，软标签与多标签类似，他们都是允许一个样本可以。多标签则是只要有专家认为样本属于这个类别，硬标签与单标签是相似的，硬标签强调该样本是否属于。，不同的是，软标签以概率的形式，表示。

paddle.nn.functional.cross_entropy中的soft_label时间消耗问题

m0_57459724的博客

01-22

1302

最近在跑模型的时候发现，同样在imagenet1k数据集，256大小的batchsize下，我自己的模型训练一个epoch需要几乎一个小时，而PiT则差不多只需要半个小时。但是将batchsize调整为64之后时间又几乎相同。测试后发现：单独在本机上测试，经过对比后发现时间开销主要在计算loss时，使用相同的api 测试代码： import paddle.nn as nn import paddle import paddle.nn.functional as F from backbone imp.

NLP笔记

fox_syp的博客

01-06

2368

nlp

简单了解Knowledge distillation知识蒸馏

saya21的博客

01-13

5964

论文：Distilling the Knowledge in a Neural Network 一、什么是知识蒸馏，为什么要使用知识蒸馏？知识蒸馏就是把一个大模型的知识迁移到小模型上，因为大模型虽然能达到较高的精度，但它的训练往往需要大量的资源和时间，小模型的训练需要的资源少，训练速度快，但它的精度往往不如大模型。显然，不是每个人都拥有足够的资源训练大模型，为了使用更少的资源、更快的速度，并且精度不能太差，不如让小模型Student学习大模型Teacher的知识，用更少的资源就能达到不错的精度。二、知识

深度学习基本概念

weixin_45079449的博客

07-31

969

就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

收藏 | 半监督目标检测相关方法总结

机器学习社区

01-20

2460

近期阅读了一些半监督目标检测（Semi-Supervised Object Detection，SSOD）的文章，特此总结，以供未来查阅。什么是半监督目标检测？传统机器学习根据训练数据集中的标注情况，有着不同的场景，主要包括：监督学习、弱监督学习、弱半监督学习、半监督学习。由于目标检测任务的特殊性，在介绍半监督目标检测方法之前，我们查看一下目标检测在这四个方向下的具体设定，如下图所示（不包括无监督学习）：图一目标检测的不同的 setting 干货推荐浙大博士导师深度整理：Tensorflow

Pseudo-Label:深度学习中一种简单有效的半监督方法

热门推荐

u012420553的博客

09-18

1万+

Pseudo-Label:深度学习中一种简单有效的半监督方法1 摘要2 介绍 1 摘要提出了一种简单有效的深度神经网络半监督学习方法。基本上，该网络采用带标签和无标签数据同时训练的监督方式。对于未标记的数据，伪标记，只是选取具有最大预测概率的类，就像它们是真实的标签一样使用。这实际上相当于熵正则化。它倾向于类与类之间的低密度间隔，这是半监督学习通常假定的前提。在MNIST手写体十位数数据集上，采...

如何在resnet50的基础上增加伪标签技术代码

05-24

伪标签技术是一种半监督学习技术，它通过使用未标记数据来增强监督学习模型的性能。在ResNet50模型上使用伪标签技术，可以通过以下步骤实现： 1. 加载 ResNet50 模型和数据集。 ```python from tensorflow.keras.applications.resnet50 import ResNet50 from tensorflow.keras.preprocessing.image import ImageDataGenerator model = ResNet50(weights='imagenet', include_top=False, input_shape=(224, 224, 3)) train_datagen = ImageDataGenerator(rescale=1./255, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) test_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(directory=train_dir, target_size=(224, 224), batch_size=32, class_mode='categorical') test_generator = test_datagen.flow_from_directory(directory=test_dir, target_size=(224, 224), batch_size=32, class_mode='categorical', shuffle=False) ``` 2. 对已标记的数据进行正常的训练。 ```python model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) history = model.fit(train_generator, epochs=10, validation_data=test_generator) ``` 3. 使用模型对未标记的数据进行预测，并根据预测结果生成伪标签。 ```python import numpy as np unlabeled_datagen = ImageDataGenerator(rescale=1./255) unlabeled_generator = unlabeled_datagen.flow_from_directory(directory=unlabeled_dir, target_size=(224, 224), batch_size=32, class_mode=None, shuffle=False) unlabeled_preds = model.predict(unlabeled_generator) unlabeled_labels = np.argmax(unlabeled_preds, axis=1) # 选择预测概率最高的类作为伪标签 pseudo_labels = np.max(unlabeled_preds, axis=1) ``` 4. 将伪标签添加到未标记数据集中，并将其与已标记数据集合并以进行下一轮训练。 ```python # 将伪标签添加到未标记数据集中 for i in range(len(unlabeled_generator.filenames)): filename = unlabeled_generator.filenames[i] unlabeled_generator.classes[i] = pseudo_labels[i] # 将未标记数据集与已标记数据集合并 merged_generator = train_datagen.flow_from_directory(directory=train_dir + "/" + unlabeled_dir, target_size=(224, 224), batch_size=32, class_mode='categorical') # 继续训练模型 history = model.fit(merged_generator, epochs=10, validation_data=test_generator) ``` 5. 重复步骤3-4，直到模型收敛或达到预设的迭代次数。注意：在使用伪标签技术时，需要谨慎选择阈值，以避免将错误的预测结果添加到未标记数据集中。