泰坦尼克

本文介绍了对泰坦尼克数据集进行数据挖掘的过程,包括加载数据、特征类型分析、无关特征删除。在特征分析中,发现'Name', 'Ticket', 'Sex', 'Cabin'等特征与存活率相关。通过删除无关特征和处理缺失值,如用中位数填充'Age',众数填充'Embarked',模型拟合和调参,最终发现随机森林模型表现优秀,但调整参数后效果反而降低,暗示了可能存在的问题。后续工作计划涉及异常值分析和多模型融合。" 112927170,10324536,Halcon窗体图片缩放与移动教程:WPF中的HWindowControlWPF实现,"['Halcon', '机器视觉', '图像处理', 'C#开发', 'WPF编程']
摘要由CSDN通过智能技术生成

1. 加载数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
train_df = pd.read_csv("tatannic/train.csv")
test_df = pd.read_csv("tatannic/test.csv")

2. 特征类型分析

print(train_df.shape)
train_df.head()

在这里插入图片描述

print(test_df.shape)
test_df.head()

在这里插入图片描述

  • 可以发现测试集比训练集少‘Survived‘这个特征,当然我们要预测的也是这个特征
train_df.describe()

在这里插入图片描述

sns.countplot(train_df['Survived'])

在这里插入图片描述

train_df['Survived'].value_counts()

在这里插入图片描述

train_df.info()

在这里插入图片描述

  • 一共有12个特征,7个数值特征,5个类别特征,'Age’和‘Cabin’缺失的比较多,‘Embarked’缺失的较少
train_df.describe(include=[np.object])

在这里插入图片描述

3. 无关特征删除

类别特征

- Name

  • 目标变量分析的从存活率,所以这里我们删除’Name’这个特征
train_df.drop('Name', axis=1, inplace=True)
test_df.drop('Name', axis=1, inplace=True)

- Ticket

train_df['Ticket'].value_counts()

在这里插入图片描述

ticket_count = train_df['Ticket'].value_counts()
ticket_count = ticket_count[ticket_count>=4]
ticket_count_df = train_df[train_df['Ticket'].isin(ticket_count.index)]
ticket_count_df['Ticket'].value_counts()
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值