Meta Pseudo Labels最新半监督学习记录

最新推荐文章于 2024-06-09 09:31:22 发布

qq_30362711

最新推荐文章于 2024-06-09 09:31:22 发布

阅读量2.2k

点赞数

分类专栏：神经网络技术

本文链接：https://blog.csdn.net/qq_30362711/article/details/113111258

版权

神经网络技术专栏收录该内容

20 篇文章 0 订阅

订阅专栏

Knowledge Distillation

原理：
1.Teacher的输出往往带有一些额外的信息, 即Dark Knowledge. 手写体识别的classifier为例, 该classifier的作用是识别0-9的手写体数字, 其最后输出的是一个样本属于10个数字的distribution.

比如样本x的输出为[1e-10, 1e-10, 0.98, 0.01, 1e-10, 0.009, 1e-10, 1e-10, 1e-10, 1e-10] (依次对应数字0-9),

根据输出distribution, 最大概率为数字2, 故模型对x的预测标签为2. 需要注意的是, 3和5对应的概率虽然小但远大于除2以外的数字概率, 这说明模型认为x虽然代表数字2, 但它也有点像数字2和5. 这种附加的信息其实反映出classifier在学习到了某种规律(函数), 通过该规律来计算x与不同数字的相似度. 相比original training data中生硬的one-hot标签, 这种具有额外信息的soft label携带更多的数据结构信息.

2.相对于one-hot label, 由teacher提供的soft label更容易学习, 相比于输出概率集中在一个class上的one-hot, teacher模型将概率分散在了多个class上, 这样的好处是, 使模型的预测更加的贴近实际的情况(比如在第1点中提到的)

3.通常在人工标注的训练数据中都存在错误标记, 而训练良好的Teacher模型的predict结果可以很好的”纠正”这些错误.

方法：
https://blog.csdn.net/rtygbwwwerr/article/details/79443288
参考：https://blog.csdn.net/rtygbwwwerr/article/details/79443288

qq_30362711

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Meta Pseudo Labels最新半监督学习记录

Knowledge Distillation原理：1.Teacher的输出往往带有一些额外的信息, 即Dark Knowledge. 手写体识别的classifier为例, 该classifier的作用是识别0-9的手写体数字, 其最后输出的是一个样本属于10个数字的distribution.比如样本x的输出为[1e-10, 1e-10, 0.98, 0.01, 1e-10, 0.009, 1e-10, 1e-10, 1e-10, 1e-10] (依次对应数字0-9),根据输出distributio
复制链接

扫一扫