无监督就是从有监督过滤过来的,无标签也是从有标签过滤过来的,标签就是某一个类别而已,不知道是哪个类别就假设术语没个类别的概率取加权平均。
取加权平均
假设一 非黑即白假设,更趋于属于某个类别,那么就术语某个类别
自监督,训练出来去除置信度大的重新补充到有标签的数据里面去
可以用熵来描述数据的聚合性,稳定性
假设二平滑假设
靠的近而且是稠密的数据集里面
数据不在规则范围内,可以拓展规则词库,传导过去即可
图也有传导性
图传播
通过指数函数放大微小的差别,让分类更加准确
图平滑度的定义,越小越平滑
除了有标签的差别小,无标签的更加平滑,更加聚类,更正则化的思想公式类似
假设三 找到简单的代表性
不找复杂的胡须,直接找简单直观的脑袋
自监督学习,就是通过这些假设,把soft label改成hard label才能影响权重,才能影响模型
回归模型是不适合用自监督的,因为输出的直接带进去,并没有做调整,效果是一样的
无标签数据,那就通过这些假设,把无标签数据的损失函数弄出来,让它最小化也同样可以做梯度下降,更新模型,熵小化,以及图模型的平滑化。