距离上一篇文章更新刚刚看了一下,大概22天前了,因为这段时间家里以及学业上的事比较忙,就耽搁得久了,于是今天我又双双缀缀来更新啦:)本次Python数据分析用到的工具:Anaconda,Python3.7
一、分析目的
探索泰坦尼克号邮轮上生存率与其他因素(性别、客舱等级、年龄等)之间的关系
二、理解数据
2.1.数据导入
将下载好的数据集导入分析工具,观察该数据集的内容以及质量
2.1.1.导入相关库
2.1.2.数据导入
2.1.3.理解数据
2.1.4.注意事项
在数据导入时可能会出现如下报错:
FileNotFoundError: File b'E:\titanicdata\train.csv' does not exist
解决方法:
Windows下的路径为:E:\titanicdata\train.csv
应将 data_train = pd.read_csv("E:\titanicdata\train.csv"
改为: data_train = pd.read_csv("E:\\titanicdata\\train.csv")
或 data_train = pd.read_csv("E:/titanicdata/train.csv")
或 data_train = pd.read_csv(r