动手学数据分析–Task05：数据建模及模型评估

最新推荐文章于 2024-04-24 17:03:33 发布

LK2W

最新推荐文章于 2024-04-24 17:03:33 发布

阅读量266

点赞数

分类专栏：数据分析数据挖掘 Python学习

本文链接：https://blog.csdn.net/qq_35098624/article/details/108246748

版权

Python学习同时被 3 个专栏收录

17 篇文章 4 订阅

订阅专栏

数据挖掘

12 篇文章 1 订阅

订阅专栏

数据分析

11 篇文章 0 订阅

订阅专栏

动手学数据分析–Task05：数据建模及模型评估

模型搭建

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

切割训练集和测试集

这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

模型创建

创建基于线性模型的分类模型（逻辑回归）
创建基于树的分类模型（决策树、随机森林）
分别使用这些模型进行训练，分别的到训练集和测试集的得分
查看模型的参数，并更改参数值，观察模型变化

输出模型预测结果

输出模型预测分类标签
输出不同分类标签的预测概率

模型评估

模型评估是为了知道模型的泛化能力。
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
在交叉验证中，数据被多次划分，并且需要训练多个模型。
最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
召回率（recall）度量的是正类样本中有多少被预测为正类

f-分数是准确率与召回率的调和平均

交叉验证

用10折交叉验证来评估逻辑回归模型
计算交叉验证精度的平均值

混淆矩阵

计算二分类问题的混淆矩阵
计算精确率、召回率以及f-分数

ROC曲线

绘制ROC曲线

LK2W

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学数据分析–Task05：数据建模及模型评估

动手学数据分析–Task05：数据建模及模型评估
复制链接

扫一扫

专栏目录

动手学数据分析–Task05：数据建模及模型评估

动手学数据分析–Task05：数据建模及模型评估

模型搭建

切割训练集和测试集

模型创建

输出模型预测结果

模型评估

交叉验证

混淆矩阵

ROC曲线

“相关推荐”对你有帮助么？