【数据分析】 Titanic乘客获救预测(3)建模与评估

1 建立模型

1.1 数据导入

# 导入数据
# 原始训练数据train
train = pd.read_csv('titanic/titanic_train.csv')
# 特征处理后数据data
data = pd.read_csv('titanic/clear_data.csv')

1.2 模型选择

  • 判断数据集最终是进行监督学习还是无监督学习 ,通过我们要完成的任务,以及数据样本量,特征的稀疏性等来决定
  • 通常先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型
  • 使用机器学习最常用的一个库(sklearn)来完成我们的模型的搭建

在这里插入图片描述

1.3 建模

1.3.1 切割训练集与测试集

from sklearn.model_selection import train_test_split
X = data.drop(['Survived'],axis=1)
print(data.shape,X.shape)
y = data['Survived']
(891, 19) (891, 18)
# 数据集切割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
# 划分比例默认为0.25
  • stratify:保持测试集与整个数据集里y的数据分类比例一致。比如整个数据集中Survived的生存/死亡的比例为0.4,那么在测试集中该比例也为0.4
  • train_test_split()函数参数详解

1.3.2 逻辑回归模型

# 逻辑回归
from sklearn.linear_model import LogisticRegression
# 默认参数下拟合模型
lr = LogisticRegression()
lr.fit(X_train, y_train)

# 查看训练集和测试集score值
print("训练集score:{:.2f}".format(lr.score(X_train, y_train)))
print("测试集score: {:.2f}".format(lr.score(X_test, y_test)))
# str.format()格式化,在这里输出score结果的两位小数的值
训练集score:0.81
测试集score: 0.80
  • score() :返回该次预测的系数 R 2 R^2 R2
    R 2 = 1 − u / v R^2=1-u/v R

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值