前言笔者在复习统计学回归和分类、学习python逻辑分类回归语言后做了这个入门项目,意在提高笔者运用python分析项目的实际能力。
本文共六节,阅读时间约为15分钟。
思路整理
1、项目理解
1.1了解背景
泰坦尼克号沉船是历史上最有名的沉船事件之一:1912年4月15日,在她的第一次航行中,泰坦尼克号与冰山相撞后沉没。船上乘客和机组人员2224名,其中1502人死亡。这场耸人听闻的悲剧震惊了国际社会,从而出台了更规范船舶安全规定。造成海难失事的原因之一是船上没有足够的救生艇。尽管幸存有部分运气因素,但总有些人比其他人更高概率生存,如妇女、儿童和上流社会者。
项目地址:(含项目介绍、数据下载、数据说明)
1.2明确问题
项目要求是预测一名乘客是否能够幸免于泰坦尼克号沉没。对于测试集中的每个PassengerId,要求为Survived变量预测0或1值。
1.3整理思路
2、理解数据
2.1数据导入
注意用pandas读取文件,文件名带中文会报错:Initializing from file failed。如
res = pd.read_csv('我的文件.csv')
解决方法
f = open('我的文件.csv')res = pd.read_csv(f)
2.2查看数据集信息
多出的一列为Survived,即本项目