这次利用pandas来做一个实际案例分析。分析的案例这里提供了百度网盘供大家下载。我们要做一个泰坦尼克号的案例分析。
https://pan.baidu.com/s/1cc5olt9ZUCXkvaRx-bP1YQ
这是一个很好的入门教程~案例分析的背景说的是,船要沉了,我们根据各种影响因素,判断船上成员的存活率,比如头等舱的人存活率是不是会更高呢?或者女人比男人活下来的概率更高呢?
下载这个文件后,将其放入jupyter notebook的根目录里面。
在windows系统下,在安装jupyter notebook的时候,应该会建立一个文件夹,用于储存放在jupyter notebook上的文件的,我们只需要简单的将文件下载好然后复制粘贴进来就可以了,然后用命令行打开jupyter notebook后,该文件就会自动出现在这里。
ok下面开始正式操作。
第一步,进入jupyter notebook并且导入文件。
df=pd.read_csv('train.csv')
在这里我们把该文件导入了,并命名为df。
那我们看一下它的shape()
df.shape
输出:
(891, 12)
我们可以看到,这个文件有891行,12列。所以我们可以不用把它全部打开看,只看它前5行暂时就够了
df.head(5)
输出:
在这里可以看到,每一个成员具有12个属性,比如Survived这个属性,只有1和0两个值,代表活下来了和死了,Pclass这个属性,代表着乘客的客舱等级等等
总共891个成员,我们利用之前所学的 isnull() 函数来观察一下
# 计算所有空值的总和
# 会发现,Cabin有687个空值
df.isnull().sum()
输出:
PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age