Load Lib
在这边提一下为什么要加
import warnings
warnings.filterwarnings('ignore')
主要就是为了美观,如果不加的话,warning一堆堆的,不甚整洁。
Load data
和正常的套路一样,Id的没有什么卵用但是每个数据集都喜欢加的东西,因此我们弄死它就好了。
Data Statistics
Data Statistics是不能省略的部分,这部分能够首先让你对Data Science有个很基础的认知,也就是play with your data之前的know your data的部分。
在这里说一下,我在之前很简单粗暴的一上来就
dataset=df.iloc[:,1:]
把Id给删掉了,是不对的。正常的套路要先进行Data Statistics之后,才能进行对数据集的操作,否则误删了有价值的数据。。。就不大好了。。。
先看看数据集里有什么东西?
大家发现这个数据集很有趣的地方就是,他的数据类型全部都是int64的,这样Data cleaning的时候压