一、数据标注
流程图
1. 半监督学习Semi-Supervised-Learning(SSL)
一小部分数据有标注、绝大部分数据没有标注
1.1 对数据分布做假设
- 连续性假设: 两个样本的特征相似,可能有相同的标号
- 聚类假设:同一个类可能有相同标号
- 流型假设:收集的数据维度较高,数据在低维上分布,需要降维处理
1.2 自学习
- 是一种SSL算法
- 模型用来标注数据,可以使用昂贵的模型(深度神经网络、模型融合)
- 伪标注数据:是指按照模型预测出来的数据,噪音可能比较大,只保留置信的样本数据
2. 众包标注数据
- 网上找人标注,低成本
- 需要设计简单的标记任务、清晰的指示
- 成本:任务数量**#Task** X 每个标注任务的时间**#Time**
- 数据标注质量有好有坏,需要进行质量控制
2.1 主动学习:用于减少任务数目#Task
把最有”意思“的未标注数据选择出来,给标注工标注。选择方法有两种:
- 方法一:Uncertainty sampling不确定采样
- 用已有标号训练一个模型,去选择最不置信的样本(区别自学习)
- 方法二:Query-by-committee使用昂贵的模型,多个模型进行投票。
2.2 主动学习+自学习
3. 弱监督学习
半自动生成标记,标记比人差但是足够训练模型
- 数据编程:启发式的方法给数据标号
- eg:通过规则判断评论是否是垃圾评论