动手学习数据分析之模型建立和评估

最新推荐文章于 2024-08-12 11:43:41 发布

dssaadsa_

最新推荐文章于 2024-08-12 11:43:41 发布

阅读量2k

点赞数

分类专栏：动手学习数据分析文章标签： python 机器学习

本文链接：https://blog.csdn.net/dssaadsa_/article/details/108279789

版权

5 篇文章 0 订阅

订阅专栏

建模

数据分析的目的是运用数据，结合业务来得到某些我们需要知道的结果。分析的第一步就是建模，搭建一个合适的模型获得合适的结果。在本章中，我们提出了对目标生存与否的预测的任务，我们分别搭建了回归模型，和决策树模型帮助我们实现目标。

下面给出sklearn的算法选择路径，供大家参考：
sklearn

切割数据集是为了后续能评估模型泛化能力，sklearn中切割数据集的方法为train_test_split，将stratify=y就是按照y中的比例分配， random_state=0设置了随机种子，便于实验的复现。

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
X_train.shape, X_test.shape

在这里插入图片描述

线性模型所在的模块为sklearn.linear_model，线性回归简单来说就是这样一个公式，线性回归模型在训练中调整权重进行拟合。
在这里插入图片描述
模型训练：

lr = LogisticRegression()
lr.fit(X_train, y_train)

树模型所在的模块为sklearn.ensemble，决策树模型同时使用多个条件进行判断的模型。
模型训练：

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

一般监督模型在sklearn里面有个predict能输出预测标签，predict_proba则可以输出标签概率。
下面是回归模型的预测示例。
在这里插入图片描述

我们需要对模型进行评估来知道这个模型好用与否。
我们分别使用k 折交叉验证（k-fold cross-validation）和准确率（precision）以及召回率（recall）对模型进行评价。

K折就是讲数据集切分成K小块，验证集和测试集相互形成补集，循环交替：
在这里插入图片描述

scores = cross_val_score(lr, X_train, y_train, cv=10)

在这里插入图片描述

混淆矩阵如图：
在这里插入图片描述
准确率 (Accuracy),精确度（Precision）,Recall,f-分数计算方法如图：

关注

专栏目录