调用weka模拟实现 “主动学习“ 算法

最新推荐文章于 2024-03-01 17:12:07 发布

Douzi1024

最新推荐文章于 2024-03-01 17:12:07 发布

阅读量210

点赞数

本文链接：https://blog.csdn.net/Xiao_CangTian/article/details/89506876

版权

该博客介绍了如何调用weka工具来模拟主动学习过程，包括基于少量已标记样本构建模型，选择信息量最大的未标记样本进行标记，并逐步完善模型，直到满足停止条件。

摘要由CSDN通过智能技术生成

调用weka模拟实现 “主动学习“ 算法

主动学习：

主动学习的过程：需要分类器与标记专家进行交互。一个典型的过程：

（1）基于少量已标记样本构建模型

（2）从未标记样本中选出信息量最大的样本，交给专家进行标记

（3）将这些样本与之前样本进行融合，并构建模型

（4）重复执行步骤（2）和步骤（3），直到stopping criterion（不存在未标记样本或其他条件）满足为止

模拟思路：

1. 将数据分为label 和 unlabel数据集

2. 将 unlabel 分为100个一组，每组样本数组分别求出熵值，按照熵值排序，取前5个样本，添加到 label样本之中

package demo;


import java.io.FileReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Random;
import weka.classifiers.Evaluation;
import weka.classifiers.bayes.NaiveBayes;
import weka.core.Instance;
import weka.core.Instances;
import weka.core.converters.ConverterUtils.DataSource;

//将测试用例，按照熵值进行排序
class InstanceSort implements Comparable<InstanceSort>{
    public Instance instance;
    public double entropy;
    
    public InstanceSort( Instance instance,