Titanic生还预测分析

# coding: utf-8
# 本文预测泰坦尼克号生还率,鉴于前边学习了简单线性回归,逻辑回归,本案例对这两种方法进行运用
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# <h5>提纲思路:</h5>
#     第一步:导入数据,查看数据内容<br>
#     第二步:数据清洗<br>
#        1.数据预处理<br>
#        2.数据特征提取<br>
#     第三步:建立模型<br>
#     第四步:模型评估<br>
#     第五步:方案实施<br>
#        1.提交到kaggle<br>
#        2.撰写分析报告

# 忽略警告提示
import warnings
warnings.filterwarnings('ignore')


# <b>第一步:<b><br>
# 导入数据,查看数据内容
# 这里的训练数据集和测试数据集已经分割好了,直接导入
trainDF = pd.read_csv('../机器学习(入门)/3.泰坦尼克号/train.csv')
testDF = pd.read_csv('../机器学习(入门)/3.泰坦尼克号/test.csv')
print(trainDF.shape,testDF.shape)
trainDF.head()
testDF.head()

# 记录下原始数据量
rowNum_train = trainDF.shape[0]
rowNum_test = testDF.shape[0]
print('训练数据量为:',rowNum_train)
print('测试数据量为:',rowNum_test)

# 合并数据集,方便对两个数据集同时清洗(此处合并除了少了一部分清洗工作,还有什么别的功能?)
integDF = pd.concat([trainDF,testDF],axis = 0,ignore_index = True)
integDF.shape
integDF.head()

# 查看数据描述信息
integDF.describe()

# 为了查看每一列的数据状态,我们用info方法
integDF.info()


# <b>信息解释:(共有1309条数据)</b><br>
# 1.年龄:1046条非空数据,也就是有263条缺失数据,缺失占比:20.09%<br>
# 2.舱位:295条非空数据,缺失较多,缺失占比:77.46%<br>
# 3.登船入口:2条缺失<br>
# 4.船票价格:1条缺失<br>
# 5.生还数据:891条非空数据,缺失418条数据,缺失占比:31.93%<br>
# 6.其他数据:完整<br>

# <b>第二步(1):</b><br>
# 对数据的预处理<br>
# 对于缺失数据的处理,是一个很重要的问题,由于个人能力所限,仅用最简单的填充方法
# 对于数值类型的数据,用平均值来填充
integDF['Age'] = integDF['Age'].fillna(integDF['Age'].mean())
integDF['Fare'] = integDF['Fare'].fillna(integDF['Fare'].mean())
integDF.info()

# 对于登船入口的填充
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值