首先在github上发现了写好的Adaboost包,可以用来测试下能否使用。
https://github.com/tizfa/sparkboost
对于Java程序需求的是JavaRDD<MultilabelPoint> 数据格式,而读取的是RDD<labeledPoint>,转化为JavaRDD<labeledPoint>。
所以要对于两种数据格式进行转换。把label,feature对应起来。
public class ClassifierTask {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("ClassifierTask").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
// 得到常用的Sparkconf和sc, JavaSparkContext to SparkContext
SparkContext sc1 = sc.sc();
String inputFile = "D:\\softs\\spark-1.6.0-bin-hadoop2.6\\data\\mllib\\sample_binary_classification_data.txt";
JavaRDD<String> String