泰坦尼克

最新推荐文章于 2021-04-19 23:05:47 发布

haisong chen

最新推荐文章于 2021-04-19 23:05:47 发布

阅读量529

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/chen19830/article/details/88580805

版权

本文介绍了对泰坦尼克数据集进行数据挖掘的过程，包括加载数据、特征类型分析、无关特征删除。在特征分析中，发现'Name', 'Ticket', 'Sex', 'Cabin'等特征与存活率相关。通过删除无关特征和处理缺失值，如用中位数填充'Age'，众数填充'Embarked'，模型拟合和调参，最终发现随机森林模型表现优秀，但调整参数后效果反而降低，暗示了可能存在的问题。后续工作计划涉及异常值分析和多模型融合。" 112927170,10324536,Halcon窗体图片缩放与移动教程：WPF中的HWindowControlWPF实现,"['Halcon', '机器视觉', '图像处理', 'C#开发', 'WPF编程']

摘要由CSDN通过智能技术生成

1. 加载数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
train_df = pd.read_csv("tatannic/train.csv")
test_df = pd.read_csv("tatannic/test.csv")

2. 特征类型分析

print(train_df.shape)
train_df.head()

在这里插入图片描述

print(test_df.shape)
test_df.head()

在这里插入图片描述

可以发现测试集比训练集少‘Survived‘这个特征，当然我们要预测的也是这个特征

train_df.describe()

在这里插入图片描述

sns.countplot(train_df['Survived'])

在这里插入图片描述

train_df['Survived'].value_counts()

在这里插入图片描述

train_df.info()

在这里插入图片描述

一共有12个特征，7个数值特征，5个类别特征，'Age’和‘Cabin’缺失的比较多，‘Embarked’缺失的较少

train_df.describe(include=[np.object])

在这里插入图片描述

3. 无关特征删除

类别特征

- Name

目标变量分析的从存活率，所以这里我们删除’Name’这个特征

train_df.drop('Name', axis=1, inplace=True)
test_df.drop('Name', axis=1, inplace=True)

- Ticket

train_df['Ticket'].value_counts()

在这里插入图片描述

ticket_count = train_df['Ticket'].value_counts()
ticket_count = ticket_count[ticket_count>=4]
ticket_count_df = train_df[train_df['Ticket'].isin(ticket_count.index)]
ticket_count_df['Ticket'].value_counts()