决策树算法(混淆矩阵,roc曲线)

#-*- coding: utf-8 -*-
#构建并测试CART决策树模型

import pandas as pd #导入数据分析库
from random import shuffle #导入随机函数shuffle,用来打算数据

datafile = '../data/model.xls' #数据名
data = pd.read_excel(datafile) #读取数据,数据的前三列是特征,第四列是标签
data = data.as_matrix() #将表格转换为矩阵 [4 1 1 1]
shuffle(data) #随机打乱数据


p = 0.8 #设置训练数据比例
train = data[:int(len(data)*p),:] #前80%为训练集
test = data[int(len(data)*p):,:] #后20%为测试集


#构建CART决策树模型
from sklearn.tree import DecisionTreeClassifier #导入决策树模型

treefile = '../tmp/tree.pkl' #模型输出名字
tree = DecisionTreeClassifier() #建立决策树模型
tree.fit(train[:,:3], train[:,3]) #训练

#保存模型
from sklearn.externals import joblib
joblib.dump(tree, treefile)

#from cm_plot import * #导入自行编写的混淆矩阵可视化函数
def cm_plot(y, yp):
  
  from sklearn.metrics import confusion_matrix #导入混淆矩阵函数

  cm = confusion_matrix(y, yp) #混淆矩阵
  
  import matplotlib.pyplot as plt #导入作图库
  plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图,配色风格使用cm.Greens,更多风格请参考官网。
  plt.colorbar() #颜色标签
  
  for x in range(len(cm)): #数据标签
    for y in range(len(cm)):
      plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
  
  plt.ylabel('True label') #坐标轴标签
  plt.xlabel('Predicted label') #坐标轴标签
  return plt

cm_plot(train[:,3], tree.predict(train[:,:3])).show() #显示混淆矩阵可视化结果
#注意到Scikit-Learn使用predict方法直接给出预测结果。


from sklearn.metrics import roc_curve #导入ROC曲线函数
import matplotlib.pyplot as plt #导入作图库
fpr, tpr, thresholds = roc_curve(test[:,3], tree.predict_proba(test[:,:3])[:,1], pos_label=1)
plt.plot(fpr, tpr, linewidth=2, label = 'ROC of CART', color = 'green') #作出ROC曲线
plt.xlabel('False Positive Rate') #坐标轴标签
plt.ylabel('True Positive Rate') #坐标轴标签
plt.ylim(0,1.05) #边界范围
plt.xlim(0,1.05) #边界范围
plt.legend(loc=4) #图例
plt.show() #显示作图结果

 

  • 5
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用Scala实现决策树算法混淆矩阵ROC曲线的代码,用于预测淘宝回头客: 1. 决策树算法 ```scala import org.apache.spark.ml.classification.DecisionTreeClassifier import org.apache.spark.ml.feature.VectorAssembler // 加载数据 val data = spark.read.format("csv").option("header", true).load("file_path") // 将数据转换为二元分类问题 val binaryData = data.withColumn("label", when(col("回头客") === "是", 1.0).otherwise(0.0)) val featureCols = binaryData.columns.filter(_ != "回头客") // 将特征向量转换为向量列 val assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features") val binaryDataWithFeatures = assembler.transform(binaryData) // 拆分数据集为训练集和测试集 val Array(trainingData, testData) = binaryDataWithFeatures.randomSplit(Array(0.7, 0.3), seed = 1234L) // 训练决策树模型 val model = new DecisionTreeClassifier().setLabelCol("label").setFeaturesCol("features").fit(trainingData) // 测试模型 val predictions = model.transform(testData) // 输出预测结果 predictions.show() ``` 2. 混淆矩阵 ```scala import org.apache.spark.mllib.evaluation.MulticlassMetrics // 将预测结果转换为RDD val predictionAndLabels = predictions.select("prediction", "label") .rdd.map(row => (row.getDouble(0), row.getDouble(1))) // 计算混淆矩阵 val metrics = new MulticlassMetrics(predictionAndLabels) val confusionMatrix = metrics.confusionMatrix // 输出混淆矩阵 println(s"Confusion matrix:\n$confusionMatrix") ``` 3. ROC曲线 ```scala import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics // 计算预测得分 val scoreAndLabels = predictions.select("probability", "label") .rdd.map(row => (row.getAs[org.apache.spark.ml.linalg.Vector](0)(1), row.getDouble(1))) // 计算ROC曲线 val metrics = new BinaryClassificationMetrics(scoreAndLabels) val roc = metrics.roc // 输出ROC曲线 println(s"ROC curve:\n$roc") ``` 请注意,这些代码是为了演示用途而编写的,并且可能需要根据您的数据和任务进行修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值