数据分析实战:泰坦尼克的任务——from kaggle(连载6 \ 模型搭建与性能评估)

本文档详细介绍了如何利用机器学习预测泰坦尼克号乘客的生存情况。首先进行特征工程,处理缺失值和编码分类变量。接着,通过训练集和测试集的切割,建立了逻辑回归和随机森林模型。最后,使用交叉验证、混淆矩阵和ROC曲线评估模型性能。
摘要由CSDN通过智能技术生成

第三章(PART1):模型搭建

经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况,以及得出了一些结论。
下面我们将搭建一个预测模型,运用机器学习的方式来为泰坦尼克船只做一个预测,我们在测试集的数据中来预
测哪些乘客将会存活,哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 读取训练数集
train = pd.read_csv('train.csv')
train.head()

在这里插入图片描述

train.shape

在这里插入图片描述

8.1 特征工程

8.1.1 任务一:缺失值填充

  1. 对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充
  2. 对连续变量缺失值:填充均值、中位数、众数
# 观察缺失值个数
pd.isnull(train).sum()

在这里插入图片描述

# 对分类变量进行填充
train["Embarked"] = train["Embarked"].fillna("S")
train['Cabin'] = train['Cabin'].fillna('NA')
# 对连续变量进行填充
train["Age"] = train["Age"].fillna(train["Age"].mean())
# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)

在这里插入图片描述

8.1.2 任务二:编码分类变量

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch',
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值