Titanic生还预测分析

最新推荐文章于 2023-07-05 15:48:30 发布

Sundy_L

最新推荐文章于 2023-07-05 15:48:30 发布

阅读量1k

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/sundy_l/article/details/80614779

版权

本文通过Python进行泰坦尼克号生还率预测，使用了数据预处理、特征提取、逻辑回归模型建立，并对模型进行了评估。文章详细介绍了数据清洗过程，包括填充缺失值和特征提取，最后通过逻辑回归模型进行预测并提交结果到Kaggle。

摘要由CSDN通过智能技术生成

# coding: utf-8
# 本文预测泰坦尼克号生还率，鉴于前边学习了简单线性回归，逻辑回归，本案例对这两种方法进行运用
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# <h5>提纲思路：</h5>
#     第一步：导入数据，查看数据内容<br>
#     第二步：数据清洗<br>
#        1.数据预处理<br>
#        2.数据特征提取<br>
#     第三步：建立模型<br>
#     第四步：模型评估<br>
#     第五步：方案实施<br>
#        1.提交到kaggle<br>
#        2.撰写分析报告

# 忽略警告提示
import warnings
warnings.filterwarnings('ignore')


# <b>第一步：<b><br>
# 导入数据，查看数据内容
# 这里的训练数据集和测试数据集已经分割好了，直接导入
trainDF = pd.read_csv('../机器学习（入门）/3.泰坦尼克号/train.csv')
testDF = pd.read_csv('../机器学习（入门）/3.泰坦尼克号/test.csv')
print(trainDF.shape,testDF.shape)
trainDF.head()
testDF.head()

# 记录下原始数据量
rowNum_train = trainDF.shape[0]
rowNum_test = testDF.shape[0]
print('训练数据量为：',rowNum_train)
print('测试数据量为：',rowNum_test)

# 合并数据集，方便对两个数据集同时清洗（此处合并除了少了一部分清洗工作，还有什么别的功能？）
integDF = pd.concat([trainDF,testDF],axis = 0,ignore_index = True)
integDF.shape
integDF.head()

# 查看数据描述信息
integDF.describe()

# 为了查看每一列的数据状态，我们用info方法
integDF.info()


# <b>信息解释：（共有1309条数据）</b><br>
# 1.年龄：1046条非空数据，也就是有263条缺失数据，缺失占比：20.09%<br>
# 2.舱位：295条非空数据，缺失较多，缺失占比：77.46%<br>
# 3.登船入口：2条缺失<br>
# 4.船票价格：1条缺失<br>
# 5.生还数据：891条非空数据，缺失418条数据，缺失占比：31.93%<br>
# 6.其他数据：完整<br>

# <b>第二步(1)：</b><br>
# 对数据的预处理<br>
# 对于缺失数据的处理，是一个很重要的问题，由于个人能力所限，仅用最简单的填充方法
# 对于数值类型的数据，用平均值来填充
integDF['Age'] = integDF['Age'].fillna(integDF['Age'].mean())
integDF['Fare'] = integDF['Fare'].fillna(integDF['Fare'].mean())
integDF.info()

# 对于登船入口的填充