数据分析实战：泰坦尼克的任务——from kaggle（连载6 \ 模型搭建与性能评估）

最新推荐文章于 2022-05-26 21:52:04 发布

肥牛ooo

最新推荐文章于 2022-05-26 21:52:04 发布

阅读量310

点赞数

分类专栏： Python数据分析机器学习文章标签：机器学习 python 数据分析

本文链接：https://blog.csdn.net/m0_49863527/article/details/108277820

版权

本文档详细介绍了如何利用机器学习预测泰坦尼克号乘客的生存情况。首先进行特征工程，处理缺失值和编码分类变量。接着，通过训练集和测试集的切割，建立了逻辑回归和随机森林模型。最后，使用交叉验证、混淆矩阵和ROC曲线评估模型性能。

摘要由CSDN通过智能技术生成

第三章(PART1)：模型搭建

经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况，以及得出了一些结论。
下面我们将搭建一个预测模型，运用机器学习的方式来为泰坦尼克船只做一个预测，我们在测试集的数据中来预
测哪些乘客将会存活，哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 读取训练数集
train = pd.read_csv('train.csv')
train.head()

在这里插入图片描述

train.shape

在这里插入图片描述

8.1 特征工程

8.1.1 任务一：缺失值填充

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

# 观察缺失值个数
pd.isnull(train).sum()

在这里插入图片描述

# 对分类变量进行填充
train["Embarked"] = train["Embarked"].fillna("S")
train['Cabin'] = train['Cabin'].fillna('NA')
# 对连续变量进行填充
train["Age"] = train["Age"].fillna(train["Age"].mean())

# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)

在这里插入图片描述

8.1.2 任务二：编码分类变量

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch',

最低0.47元/天解锁文章

肥牛ooo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析实战：泰坦尼克的任务——from kaggle（连载6 \ 模型搭建与性能评估）

第三章(PART1)：模型搭建经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况，以及得出了一些结论。下面我们将搭建一个预测模型，运用机器学习的方式来为泰坦尼克船只做一个预测，我们在测试集的数据中来预测哪些乘客将会存活，哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 读取训练数集train =
复制链接

扫一扫

专栏目录