泰坦尼克号数据可视化分析报告
1. 提出问题
泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?
2.理解数据
2.1 采集数据
从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目
2.2 导入数据
import
2.3 查看数据集信息
print
由上面信息可看出,数据集共有1309行,其中Survived,Age,Fare,Cabin,Embarked 5个字段有缺失值,Cabin缺失率最高。
3. 数据清洗
3.1 数据预处理(缺失值处理)
缺失值常见处理方式:数值类型用平均值替代,分类数据用最常见类别替代或用U(Unkonwn) 替代
print
3.2 特征工程
3.2.1 数据分类
- 数值类型:乘客编号(PassengerId),年龄(Age),船票价格(Fare),同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)
- 时间序列:无
- 分类数据:1)有直接类别的:乘客性别(Sex),登船港口(Embarked),客舱等级(Pclass):1=1等舱,2=2等舱,3=3等舱;2)字符串类型:乘客姓名(Name),客舱号(Cabin),船票编号(Ticket)
3.2.2 分类数据:直接类别型
乘客性别(Sex)
# 对性别进行0,1赋值
登船港口(Embarked)
# 使用get_dummies 对Embarked进行one-hot编码
客舱等级(Pclass)
# 使用get_dummies 对Pclass进行one-hot编码
3.2.2 分类数据:字符串类型
乘客姓名(Name)
full
客舱号(Cabin)
full
3.2.3 数值类型:同代直系亲属人数(SibSp),不同代直系亲属人数(Parch)
建立家庭人数和家庭类别
# 同代直系+不同代直系+自己
3.2.3 特征选择
# 查看各特征的相关系数
由上可知,Survived与Mrs和Mrss正相关性,和Mr负相关性,有可能当时逃生遵守了女士优先的原则。
根据各个特征与生成情况(Survived)的相关系数大小,我们选择了这几个特征作为模型的输入:
头衔(前面所在的数据集titleDf)、客舱等级(pclassDf)、家庭大小(familyDf)、船票价格(Fare)、船舱号(cabinDf)、登船港口(embarkedDf)、性别(Sex)
# 特征选择
4. 构建模型
4.1 建立训练数据集和测试数据集
sourceRow
4.2 选择及训练模型
# 使用逻辑回归
5. 模型评估
model
6. 方案实施
# 对预测数据集进行预测
附:可视化
柱状图
import