以泰坦尼克号为例的数据预处理与完整特征工程

最新推荐文章于 2024-07-08 20:12:54 发布

LiuDi1999

最新推荐文章于 2024-07-08 20:12:54 发布

阅读量3.9k

点赞数 3

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_41520877/article/details/107858288

版权

我们主要要搞清楚数据处理的常见处理方法：

数据读取
单变量探索分析
多变量探索分析
数据预处理
缺失值处理
独热编码（针对类别型变量）
为什么要对类别变量重新编码？一个最简单的理解就是：机器学习算法要求输入的变量值必须是数值。

针对类别型变量，我们必须重新编码，把它们转换为数值型变量，但是信息量还不会丢失。最常用的一种类别变量在机器学习界喜欢叫独热编码（one-hot encoding) 。独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多少个类别值，转化后的 0/1标识变量就有多少个。
分箱（针对连续型变量）
标准化和归一化
变量构造和组合

案例提供了 891 名泰坦尼克号的乘客数据，包含乘客的姓名，性别，年龄，客舱等级等信息，当然还有一个最重要的信息是：乘客是否生还（它有两个取值： 1 表示生还， 0 表示遇难）。比赛的目标是通过对训练数据集的学习来构建一个分类预测模型，对测试数据集中的 418 名乘客生存情况进行预测。

在这里插入图片描述
分析：很明显，这属于一个 监督学习 的问题，目标变量是乘客是否生还，由于 目标变量 只有 2 个标签值（0 或者），所以这个问题是典型的分类问题，准确来说是一个 二分类 问题。虽然任务的目标是构建一个分类模型预测乘客的生存概率，但是在建模过程中，我们依然需要去理解泰坦尼克号幸存者到底有什么样的一些特征。

比赛提供的数据集有两个 train.csv 和 test.csv
• train.csv 用于训练，标记了乘客是否生还的信息
• test.csv 主要用于评估参赛者模型的正确性，所以隐去了乘客是否生还的信息。我们接下来主要对 train.csv 数据集进行探索分析

一导包

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import preprocessing
# 解决中文显示乱码
plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False

二加载数据

titanic_df &

最低0.47元/天解锁文章

LiuDi1999

关注

3
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
以泰坦尼克号为例的数据预处理与完整特征工程

我们主要要搞清楚数据处理的常见处理方法：数据读取单变量探索分析多变量探索分析数据预处理缺失值处理独热编码（针对类别型变量）为什么要对类别变量重新编码？一个最简单的理解就是：机器学习算法要求输入的变量值必须是数值。针对类别型变量，我们必须重新编码，把它们转换为数值型变量，但是信息量还不会丢失。最常用的一种类别变量在机器学习界喜欢叫独热编码（one-hot encoding) 。独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多
复制链接

扫一扫

专栏目录