【数据分析】 Titanic乘客获救预测（3）建模与评估

最新推荐文章于 2022-11-19 20:52:44 发布

baekii

最新推荐文章于 2022-11-19 20:52:44 发布

阅读量401

点赞数

分类专栏：数据分析文章标签：数据分析 python

本文链接：https://blog.csdn.net/qq_36977302/article/details/108236676

版权

建模与评估

1 建立模型
2 模型评估

1 建立模型

1.1 数据导入

# 导入数据
# 原始训练数据train
train = pd.read_csv('titanic/titanic_train.csv')
# 特征处理后数据data
data = pd.read_csv('titanic/clear_data.csv')

1.2 模型选择

判断数据集最终是进行监督学习还是无监督学习 ，通过我们要完成的任务，以及数据样本量，特征的稀疏性等来决定
通常先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型
使用机器学习最常用的一个库（sklearn）来完成我们的模型的搭建

在这里插入图片描述

1.3 建模

1.3.1 切割训练集与测试集

from sklearn.model_selection import train_test_split

X = data.drop(['Survived'],axis=1)
print(data.shape,X.shape)
y = data['Survived']

(891, 19) (891, 18)

# 数据集切割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
# 划分比例默认为0.25

stratify：保持测试集与整个数据集里y的数据分类比例一致。比如整个数据集中Survived的生存/死亡的比例为0.4，那么在测试集中该比例也为0.4
train_test_split()函数参数详解

1.3.2 逻辑回归模型

# 逻辑回归
from sklearn.linear_model import LogisticRegression
# 默认参数下拟合模型
lr = LogisticRegression()
lr.fit(X_train, y_train)

# 查看训练集和测试集score值
print("训练集score:{:.2f}".format(lr.score(X_train, y_train)))
print("测试集score: {:.2f}".format(lr.score(X_test, y_test)))
# str.format()格式化，在这里输出score结果的两位小数的值

训练集score:0.81
测试集score: 0.80

score() ：返回该次预测的系数 $R^2$
$R^2=1-u/v$

最低0.47元/天解锁文章

baekii

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数据分析】 Titanic乘客获救预测（3）建模与评估

建模与评估1 建立模型1.1 数据导入1.2 模型选择1.3 建模1.3.1 切割训练集与测试集1.3.2 逻辑回归模型1.3.3 随机森林模型1.3.4 模型预测结果2 模型评估2.1 交叉验证2.2 混淆矩阵2.3 ROC曲线2.3.1 ROC曲线定义2.3.2 ROC曲线绘制1 建立模型1.1 数据导入# 导入数据# 原始训练数据traintrain = pd.read_csv('titanic/titanic_train.csv')# 特征处理后数据datadata = pd.read
复制链接

扫一扫