2.3 缺损值和一般统计量

 

image.png

 

接下来,我们要计算出两种数据值:缺损值一般统计量

 

缺损值主要指的是,数据列中存在缺少或漏掉的数据项,比如 customer_master 中缺少了顾客的姓名或邮箱,transaction 中缺少了交易的数量或金额等等。缺损值的大小对后面的分析非常重要,应尽量让缺损值越小越好。那么,首先计算一下 join_data 中各个数据列的缺损值,代码如下:

join_data.isnull().sum()

解释一下代码:

 

使用isnull() 函数,如果数据列中的数据项不存在时,会返回一个True,存在的话,则返回一个False。使用sum()函数,则将返回True的数据项,按照个数累计相加。

 

点击"运行",执行效果如下图所示。

image.png

从执行结果可以发现,join_data 中的数据列的缺损值都是0,这样的数据非常完美,有利于后面的数据分析。


如果想计算 join_data 的整体值,可以使用describe()函数,代码如下:

join_data.describe()

点击"运行",执行效果如下图所示。

image.png

观察上图可以发现,所谓一般统计量,就是计算出各个数据列中的总个数(count)、平均值(mean)、标准差(std)、最小值(min)、四分位值(25%,50%,75%)和最大值(max)。

 

比方说,“price”数据列,平均值是8156元,最大值是25200元,从单价是12600元可知,某位顾客买了两台。再比如“quantity”数据列,从25%、50%、75%的值可知,大部分人都只购买了1台。再看“age”数据列,从min值和max值可知,顾客的年龄分布在20~80岁之间。像上面这样,通过计算缺损值一般统计量,我们就可以分析出数据中的一些基本信息。

 

接下来,从这些数据中,进一步分析出有用的信息。


此处为语雀文档,点击链接查看:https://www.yuque.com/codeclub/yvmeco/friz9v

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值