【log】记录一下分析思路

本文探讨了通过六个机器学习方法对个人教育计划进行数据分析,目标是找到预测模型和最佳分类器。然而,结果显示ROC曲线的AUC值不高,表明模型效果不理想,原因可能在于数据中连续变量少且样本量不足。作者强调结合分类变量与连续变量以及增加样本量的重要性。
摘要由CSDN通过智能技术生成

总体思路

分析的时候是以对自己的教育计划作为结果(作为分类的标签),其他所有项作为输入项。结果分为5个标签:(看了一下输出是没有其他数值的故5个)
在这里插入图片描述

分析的目标

分别用六个机器学习方法对数据进行处理,希望得出准确度较高的预测模型与最佳分类器。输出的结果以准确度和ROC曲线进行表示。其实ROC曲线的面积和准确度是一个意思。ROC曲线使用曲线下面积(AUC)的大小对模型进行评价,AUC的取值范围为0.5到1之间,曲线下面积越大,越接近于1,模型的诊断或预测效果越好:AUC在 0.5~0.7时,准确性较低;在0.7~0.9时,有一定准确性;AUC在0.9以上时,准确性较高。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。所以可以看出得出的结果并不理想。
在这里插入图片描述
至于为什么ROC曲线是折线而不是常见的较为圆润的曲线。猜测理由如下:(1)模型中所包含的连续变量指标数量较少,绝大部分指标为类别较少的分类变量;即为离散值而不是连续的一些数值。

(2)绘制ROC曲线所使用的样本量较少。因此在建模时要注意,模型内纳入的各指标需要将分类变量与连续变量结合起来,并注意样本量不能太小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值