以泰坦尼克号为例的数据预处理与完整特征工程

我们主要要搞清楚数据处理 的常见处理方法:

  • 数据读取

  • 单变量探索分析在这里插入图片描述

  • 多变量探索分析
    在这里插入图片描述

  • 数据预处理
    在这里插入图片描述
    在这里插入图片描述

  • 缺失值处理
    在这里插入图片描述

  • 独热编码(针对类别型变量)
    为什么要对类别变量重新编码?一个最简单的理解就是:机器学习算法要求输入的变量值必须是数值。
    在这里插入图片描述
    针对类别型变量,我们必须重新编码,把它们转换为数值型变量,但是信息量还不会丢失。最常用的一种类别变量在机器学习界喜欢叫独热编码(one-hot encoding) 。 独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多少个类别值,转化后的 0/1标识变量就 有多少个。

  • 分箱(针对连续型变量)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 标准化和归一化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 变量构造和组合

案例提供了 891 名泰坦尼克号的乘客数据,包含乘客的姓名,性别,年龄,客舱等级 等信息,当然还有一个最重要的信息是:乘客是否生还(它有两个取值: 1 表示生还, 0 表示遇难)。比赛的目标是通过对训练数据集的学习来构建一个分类预测模型,对测试数 据集中的 418 名乘客 生存情况 进行预测。

在这里插入图片描述
分析:很明显, 这属于一个 监督学习 的问题,目标变量是乘客是否生还, 由于 目标变量 只有 2 个标签值(0 或者),所以这个问题是典型的分类问题,准确来说是一个 二分类 问题。虽然任务的目标是构建一个分 类模型预测乘客的生存概率,但是在建模过程中,我们依然需要去理 解泰坦尼克号幸存者到底有什么样的一些特征。

比赛提供的数据集有两个 train.csv 和 test.csv
• train.csv 用于训练,标记了乘客是否生还的信息
• test.csv 主要用于评估参赛者模型的正确性,所以 隐去了乘客是否生还的信息。 我们接下来主要对 train.csv 数据集进行探索分析

一 导包

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import preprocessing
# 解决中文显示乱码
plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False

二 加载数据

titanic_df &
  • 3
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值