Cost-sensitive multi-label active learning 是我们正在进行的工作. 这里分析相关程序. 与项目无关现在不要看, 等我们把论文和代码弄好后, 配套看.
1. 工具类 SimpleTools.java
1.1 数据
- random
1.2 方法
- normalize: 数据归一化
- mergeSortToIndices: 逆序获得下标数组
- getRandomOrder: 获得随机下标数组, 支持数据乱序
2. 数据管理 MultiLabelData.java
本类读入 arff 文件, 存储成一个数据矩阵和标签矩阵
2.1 数据
- dataMatrix: 数据矩阵
- labelMatrix: 标签矩阵
- predictedLabelMatrix: 预测的标签矩阵
- labelQueriedMatrix: 记录哪些标签被查询
- 查询代价、误分类代价等
2.2 方法
- reset: 重置以支持多次训练
- randomQuery: 随机查询给定数量的标签, 支持随机查询方案
- getScareLabels: 找出哪些标签是稀少的
- queryLabels: 查询某个对象的一组标签. 需要在内部保持数据的一致性, 出错影响大
- computeAccuracy: 根据预测的标签矩阵计算准确率. 需要预先给出预测值
- computeTrainingAccuracy: 计算在训练集中的准确率, 以支持训练结束的终止条件
- computeTotalCost: 计算总代价, 包括查询代价与误分类代价
- distance: 计算两个实例之间的距离 (Manhattan 或 Euclidean)
2.3 存在问题
如何进行代价敏感训练、分类?
3. 分类器构建 MultiLabelAnn.java
本类的神经网络支持全连接层和并行连接层. 输入端口数为条件属性数, 输出端口数为标签数的 2 倍.
3.1 变量
- dataset: 数据集
3.2 方法
- train: 训练一轮, 仅使用被查询过的对象
- emphasizedTrain: 训练一轮, 被强调的数据多次训练, 支持增量学习. 这是因为主动学习过程是增量学习
- test: 使用所有数据测试
- computeLabelUncertaintyMatrix: 计算标签不确定性矩阵 注意: 这是核心方法, 以后可能要修改策略
- getMostUncertainLabelIndices: 获得不确定性最高的几个标签, 包括对象下标 (一个) 与标签下标 (多个) 注意: 以后可能修改, 以支持多个对象的批量选取, 缩短程序运行时间
- getUncertainLabelBatch: 大家好, 我就是上一条说的 “以后”
- forward: 神经网络标准的前向操作
- backPropagation: 神经网络标准的回馈操作
4. 主动学习 Cmale.java
本类实现算法的主体, 很多地方都需要根据实验结果修改.
4.1 变量
- dataset: 数据集
- multiLabelAnn: 多标签分类器
4.2 方法
- initializeMultiLabelAnn: 初始化分类器
- boundedTrain: 给定训练轮数的下界、上界, 进行训练
- boundedEmphasizedTrain: 给定训练轮数的上界, 进行针对性 (增量) 训练
- computeInstanceRepresentativeness: 计算所有对象的代表性
- twoStageLearn: 两阶段学习: 冷启动 (仅考虑对象代表性与标签稀少性) 与 正常训练 (考虑标签不确定性) 注意: 这里是算法的核心, 需要改策略
- randomSelectionLearn: 随机选择标签的学习, 作为对比算法. 如果我们的策略不比随机策略好, 就没有意义
未完待续