Self training记录和学习

dannyle

已于 2022-07-23 10:40:15 修改

阅读量642

点赞数

分类专栏： self training 文章标签：学习机器学习算法

于 2022-07-22 21:44:14 首次发布

本文链接：https://blog.csdn.net/dannyle/article/details/125940379

版权

前言

本文记录和学习self training相关的知识。

1.算法

在这里插入图片描述

上面是self-training的算法流程图，简单解释一下：
1，将初始的有标签数据集作为初始的训练集(Xtrain,ytrain)=(Xl,yl)(Xtrain,ytrain)=(Xl,yl)，根据训练集训练得到一个初始分类器CintCint。
2，利用CintCint对无标签数据集XuXu中的样本进行分类，选出最有把握的样本(Xconf,yconf)(Xconf,yconf)
3，从XuXu中去掉(Xconf,yconf)(Xconf,yconf)
4，将(Xconf,yconf)(Xconf,yconf)加入到有标签数据集中，(Xtrain,ytrain)←(Xl,yl)∪(Xconf,yconf)(Xtrain,ytrain)←(Xl,yl)∪(Xconf,yconf)
5，根据新的训练集训练新的分类器，重复步骤2到5直到满足停止条件（例如所有无标签样本都被标记完了）
最后得到的分类器就是最终的分类器。

	版权声明：这是CSDN博主「tyh70537」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dannyle

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Self training记录和学习

self training
复制链接

扫一扫

专栏目录

Self-training在目标检测任务上的实践

Paper weekly

07-31

1557

©PaperWeekly 原创 ·作者｜燕皖单位｜渊亭科技研究方向｜计算机视觉、CNN在监督学习中，模型都是需要有一个大量的有标签的数据集进行拟合，通常数据成本、人力成本都很高。而现实...

半监督学习 - 自训练（Self-training）

最新发布

galoiszhou的博客

01-12

783

（Self-training）是一种利用已标记数据和未标记数据进行模型训练的方法。

参与评论您还未登录，请先登录后发表或查看评论

Self-Training：用半监督的方式对任何有监督分类算法进行训练

deephub

12-08

5989

本文将对Self-Training的流程做一个详细的介绍并使用Python 和Sklearn 实现一个完整的Self-Training示例。半监督学习结合了标记和未标记的数据，可以扩展模型训练时可用的数据池。我们无需手动标记数千个示例，就可以提高模型性能并节省大量时间和金钱。如果你经常使用有监督的机器学习算法，你肯定会很高兴听到：可以通过一种称为Self-Training的技术快速调整模型的训练方法并享受到半监督方法的好处。 Self-Training属于机器学习算法的半监督分支，因为它使用标记和未

2021-03-10自训练self-training

一亩高粱

03-10

4750

自训练，对未标注数据进行自适应采样。

自训练Self-Training学习总结

Pistachiout的学习博客

04-13

5889

Self-training是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。即首先用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类，这样就会产生伪标签（pseudo label）或软标签（soft label），挑选一定标准的伪标签样本用来迭代训练分类器。使用场景：在现实生活中得到大量有标签数据需要大量时间经历，而自训练是有标签数据+无标签数据混合成的训练数据中使用的深度学习算法，可以利用自训练方法对无标记数据进行标记，实现己标记数据的扩充。

Classic-Self-Training:经典的文本分类自训练

03-09

自训练（Self-Training）是一种半监督学习方法，它在只有少量标注数据的情况下，通过利用大量未标注数据来提高模型的性能。这种技术在处理大规模文本数据时特别有效，因为它可以降低对人工标注的依赖。在这个名为...

Self-labeled-techniques-for-semi-supervised-learning

05-15

这个项目对于理解半监督学习和自我/三重训练的运作机制非常有价值，同时也为实际应用提供了实践基础。通过这种技术，我们可以处理大规模的未标注数据，这对于那些获取标注数据成本高昂或难以获取的领域尤其重要。

MCTS 70-643 Training Kit

05-20

《MCTS 70-643 Training Kit》是一本专为准备微软认证技术专家（MCTS）70-643考试的考生设计的培训教材。...通过系统的学习和实践，读者不仅可以提升专业技能，还能增强在实际工作中解决问题的能力。

my-self-driving-project

04-04

【标题】"my-self-driving-project"揭示了一个个人的自动驾驶项目，这通常涉及到使用编程语言，尤其是Python，来实现车辆的自主导航技术。...项目结构清晰，便于管理和协作，是学习和研究自动驾驶技术的一个宝贵资源。

self-training and co-training

Calm__down的专栏

04-18

3526

Semi-supervised learning methods widely used include:1.EM with generative mixture models2.self-training3.co-training4.transductive support vector machines5.graph-based methodsself-training:A classifier is first traind with the small amount of labeled data.

self-training-self-supervised-disfluency

05-27

自我训练自我监督的流落感结合自我训练和自我监督学习进行无监督的泄气检测此存储库包含用于将自训练和自监督学习相结合以进行无监督流失检测的代码和模型（EMNLP 2020）。所有代码和模型均已发布。感谢您的耐心等待！关于模型我们发布了由伪数据和语法检查模型训练的自我监督模型。请在以下链接中下载它，并将模型放在“ self_supervised_model”和“ grammar_check_model”文件夹中。如何使用 conda create -n ss_disfluency python=3.7 conda activate ss_disfluency conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch cd transformers python setup.py insta

SIMetrix-Self-Training-simetrix自学培训教程及培训例子文件

05-19

下载的文件是一个.msi安装程序（安装教程的例子源文件）及教程PDF文档。通过双击来运行它。这将安装一个培训PDF文件中的教程例子源文件，这些文件将被安装到我的文档\SIMetrix\Training

半监督学习之self-training

热门推荐

tyh70537的博客

05-08

2万+

一，半监督学习　　半监督学习是一种介于监督式学习和无监督学习之间的学习范式，我们都知道，在监督式学习中，样本的类别标签都是已知的，学习的目的找到样本的特征与类别标签之间的联系。一般来讲训练样本的数量越多，训练得到的分类器的分类精度也会越高。但是在很多现实问题当中，一方面由于人工标记样本的成本十分高昂，导致了有标签的样本十分稀少。而另一方面，无标签的样本很容易被收集到，其数量往往是有标签样本的上

self training

stdleohao的博客

10-02

891

What is self-training? 在监督学习中，模型都是需要有一个大量的有标签的数据集进行拟合，通常数据成本、人力成本都很高。而现实生活中，无标签的样本的收集相对就很容易很多。因此，近年来，利用大量的无标签样本和少量的有标签样本的半监督学习备受关注。 Self-training 是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。 ICML 2013:The Simple and EfficientSemi-Supervised Learning Met

半监督学习算法中自训练（Self-training）

牛肉胡辣汤

08-30

1238

在半监督学习中，我们通常有一个带有标签的小型数据集和一个未标记的大型数据集。自训练算法通过使用已经标记的数据来训练一个初始模型，然后使用这个模型来对未标记的数据进行预测。根据预测结果，将置信度较高的样本添加到已标记的数据集中，然后使用这个更新后的标记数据集来重新训练模型。这个过程不断迭代，直到达到停止条件。请注意，这只是一个简单的示例，实际的代码实现可能会有更多的细节和优化。具体的实现方式可能因使用的机器学习框架和算法而有所不同。因此，建议根据具体的情况和需求来选择和调整代码实现。

Noisy Student Training：自训练（Self-training）、半监督学习、teacher和student迭代学习

zephyr_wang的博客

08-11

3772

1 简介本文根据2020年《Self-training with Noisy Student improves ImageNet classification》翻译总结。自训练（Self-training）使用标注数据训练一个好的teacher模型，然后使用该teacher模型对未标注的数据进行标注，最后使用标注数据和非标注数据联合训练一个student模型。如下图所示。本文提出的Noisy Student Training扩展了自训练和蒸馏，即（1）使用一个相等或者更大的student 模型，（2

半监督语义分割笔记（2）-self-training和consistency learning方法

weixin_54025883的博客

06-10

910

半监督分割的工作总结为两种：self-training和consistency learning。

YOLOV7学习记录之

05-31

- 在训练过程中使用 Self-Adversarial Training（SAT）技术，增加了模型的抗扰动能力； - 引入了 Focal Loss 和 Label Smoothing 技术，优化了模型的训练效果。 2. YOLOv7 的安装和使用： YOLOv7 可以通过 ...