缺失值
当我们拿到数据的时候,数据不一定是完整的,有时候一些特征有缺失值,我们可以通过可视化缺失值来决定我们下一步要进行的操作。
missingno库
missingno是一个可视化缺失值的库,方便使用,我们可以用pip install missingno 即可下载该库。
例子
import missingno as msno
msno.matrix(players.sample(500))#players表示类型为dataframe的表格,sample(500)表示抽取表格中500个样本。
上图是代码运行后得到的结果,白线越多,代表缺失值越多。
再来验证一下,我们去掉rater1和rate2的缺失值。
players = players[players.rater1.notnull()]
msno.matrix(players.sample(500))
看得出,rate1的白线没了,因为我们把缺失值给去掉了。所以白线没了。
我们还可以生成热度图。
msno.heatmap(players,figsize=(16, 7))#figsize是指图的大小
生成了这样一个图,这个图的意思是,比如说rater1和rater2的热度值是1,代表的是,当rater1缺失时,rater2也百分之百缺失,表示的是两个特征之间的关系。