Python学习-泰坦尼克号

最新推荐文章于 2024-08-13 22:01:05 发布

大烟枪yanx

最新推荐文章于 2024-08-13 22:01:05 发布

阅读量2k

点赞数 1

本文链接：https://blog.csdn.net/qq_36056559/article/details/80645128

版权

本文使用Python分析泰坦尼克号数据，探讨性别、年龄、仓位与存活率的关系，通过随机森林模型进行预测，最终得到0.822的预测准确率。

摘要由CSDN通过智能技术生成

泰坦尼克号的名单包括统计到的人员名单，包括人员的ID，是否幸存，仓位（1,2,3以及无座），姓名，性别，年龄等信息，截图如下：

本文将用Python对此样本数据进行一些简单的处理及应用。

首先用Spyder载入了泰坦尼克号的CSV数据文件，并打印了一下列名与样本个体数

train = pd.read_csv('D:/PythonPractice/titanic/train.csv')
print(train.columns.values.tolist()
print(len(train))

['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

891

从数据上并不能看出性别年龄等特征与是否幸存的关系。现在利用透视表查看仓位等级、性别与存活率的关系：

class_survived= train.pivot_table(index="Pclass",values="Survived")#仓位等级与存活率
sex_survived=train.pivot_table(index="Sex",values="Survived")#性别与存活率

    Survived
Pclass
1       0.629630
2       0.472826
3       0.242363
        Survived
Sex
female 0.742038

male 0.188908

这里发现仓位等级越高存活率越大，并且女性的存活率要远高于男性。

接下来利用绘图工具matplot的柱形图简单统计了一下年龄与存活率的关系：

age=train["Age"]
less5 =train[age

关注