机器学习实战-决策树 java版代码开发实现

话不多说,直接上代码,若有帮助,帮忙点赞哦
python版,或其他机器学习算法,可发邮箱:476562571@qq.com

在这里插入图片描述

主要实现功能:
特征 二值判别
递归遍历文件目录加载训练数据集
召回率计算
决策树构建
决策树存储(存储json文件)需要依赖 com.alibab fastjson-1.2.7.jar
决策树读取(读取json文件)需要依赖 com.alibab fastjson-1.2.7.jar

package com.code.ku.qa.metion.classifier;

import com.alibaba.fastjson.JSONObject;
import com.code.ku.qa.metion.Metion;
import org.apache.commons.io.FileUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.File;
import java.io.IOException;
import java.io.Serializable;
import java.util.*;

/**
 * @Date: 2018/11/15
 * @Time: 19:08
 * @User: Likf
 * @Description:
 */
public class DecisionTreeID3 {


    /** Logger */
    private static final Logger _LOG = LoggerFactory.getLogger(DecisionTreeID3.class);

    public static TreeNode tree = null;

    static{
        tree = loadTreeFromJsonFile(Metion.Config.getPath("classify\\id3\\tree.json"));
    }

    public DecisionTreeID3() {

    }

    public static String classify(List<String> labels,List<String> testData){
        return classify(tree,labels,testData);
    }



    /**
     * 计算香农熵
     * @param dataset
     */
    public double calChannonEnt(List<List<String>> dataset){

        Map<String,Double> outLabels = new HashMap<>();
        for (List<String> fetures:dataset){
            String outLabel = fetures.get(fetures.size()-1);
            if(!outLabels.keySet().contains(outLabel)){
                outLabels.put(outLabel,0.0);
            }
            outLabels.put(outLabel,outLabels.get(outLabel)+1);
        }

        double channonEnt = 0.0;

        for(Map.Entry<String,Double> entry:outLabels.entrySet()){
            double pi = entry.getValue()/dataset.size();
            channonEnt -= pi*(Math.log(pi)/Math.log(2.0));
        }
        return channonEnt;

    }


    /**
     * 划分数据集
     * @param dataset
     * @param fetureIndex
     * @param value
     * @return
     */
    private List<List<String>> splitDataSet(List<List<String>> dataset,int fetureIndex,String value){

        List<List<String>> subDataSet = new ArrayList<>();


        for(List<String> fetures:dataset){
            try {
                if(fetures.get(fetureIndex).equals(value)){
                    List<String> reduceFetures = new LinkedList<>();
                    reduceFetures.addAll(fetures.subList(0,fetureIndex));
                    reduceFetures.addAll(fetures.subList(fetureIndex+1,fetures.size()));
                    subDataSet.add(reduceFetures);
                }
            } catch (Exception e) {
                _LOG.trace("异常特征:"+fetures);
            }
        }
        return subDataSet;
    }


    /**
     * 选取信息增益最大的特征划分数据集
     * @param dataS
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值