接下来,我们要计算出两种数据值:缺损值和一般统计量。
缺损值主要指的是,数据列中存在缺少或漏掉的数据项,比如 customer_master 中缺少了顾客的姓名或邮箱,transaction 中缺少了交易的数量或金额等等。缺损值的大小对后面的分析非常重要,应尽量让缺损值越小越好。那么,首先计算一下 join_data 中各个数据列的缺损值,代码如下:
join_data.isnull().sum()
解释一下代码:
使用isnull() 函数,如果数据列中的数据项不存在时,会返回一个True,存在的话,则返回一个False。使用sum()函数,则将返回True的数据项,按照个数累计相加。
点击"运行",执行效果如下图所示。
从执行结果可以发现,join_data 中的数据列的缺损值都是0,这样的数据非常完美,有利于后面的数据分析。
如果想计算 join_data 的整体值,可以使用describe()函数,代码如下:
join_data.describe()
点击"运行",执行效果如下图所示。
观察上图可以发现,所谓一般统计量,就是计算出各个数据列中的总个数(count)、平均值(mean)、标准差(std)、最小值(min)、四分位值(25%,50%,75%)和最大值(max)。
比方说,“price”数据列,平均值是8156元,最大值是25200元,从单价是12600元可知,某位顾客买了两台。再比如“quantity”数据列,从25%、50%、75%的值可知,大部分人都只购买了1台。再看“age”数据列,从min值和max值可知,顾客的年龄分布在20~80岁之间。像上面这样,通过计算缺损值和一般统计量,我们就可以分析出数据中的一些基本信息。
接下来,从这些数据中,进一步分析出有用的信息。
此处为语雀文档,点击链接查看:https://www.yuque.com/codeclub/yvmeco/friz9v