通过学习其他人的代码,了解整个预测过程,以下代码为他人代码。
登录kaggle中找到titantic 下载所用数据。如下:
gender_submission是最终提交形式,只包含两列:人员编号、是否存活
test为测试数据,train为训练数据
使用jupyter notebook进行作业
首先导入所需要的基本库,(并非所有,后面还会需要导入其他库)
matplotlib inline的存在可以不需要再添加plt.show()即可将图像显示出。
导入数据
其中pd.read_csv中的index_col=0意为指定文件中的第一列为索引,pd.concat是将两个文件进行连接,使其成为一个整体。这里是将训练数据和测试数据进行了连接。
查看数据信息 pd.info()
Survived:是否存活
Pclass:客舱等级
SibSp:旁系亲属
Parch:直系亲属
Ticket:票编号
Fare:票价
Cabin:客舱编号
Embarked:上船时的港口编号
我们可以看出,Age数据有缺失,Embarked数据有缺失
下面进行数据分析:
对存活率进行统计,.value_counts()是对所提取列数目进行统计
通过sns.barplot画出性别与存活的关系,发现女性比男性存活率高
客舱等级越高存活率越高
旁系亲属数量适中,存活率高
直系亲属适中,存活率高