2.2 自定义数据列

 

image.png

 

前面所学的数据纵向完全合并数据横向关联合,都是对数据进行原封不动的操作。有时,为了分析的需要,需要我们新增一些数据列,比如算出销售总额等等,这就是所谓的自定义数据列。下面我们想将顾客的花费金额,作为新的数据列添加到 join_data 中,就可以用销售数量“quantity”乘以商品单价“item_price”达到目的。

 

代码如下:

join_data["price"] = join_data["quantity"]*join_data["item_price"]
join_data[["quantity","item_price","price"]].head()

解释一下代码:

 

第1行:join_data["price"],相当于自定义一个新的数据列——price,它的值等于 join_data["quantity"]和join_data["item_price"]的乘积。

 

第2行:使用head()函数,只将 join_data 数据集中"quantity","item_price","price"数据列的前5行显示出来。

 

点击"运行",执行效果如下图所示。

image.png

 

 

我们知道,在前面合并的transaction变量中,已经存在一个“price”数据列,表示交易的金额。那么,我们可以使用如下代码,来验证目前处理的数据是否正确。

print(join_data["price"].sum())
print(transaction["price"].sum())

解释一下代码:

 

sum()函数可以将数据列中的数据累计相加。

 

 

点击"运行",执行效果如下图所示。

image.png

观察结果,出现了两个一样的58268100,说明目前我们的操作结果是正确的。

 

大家可以发现,从开始到现在,我们的数据处理过程是环环相扣,一个变量接着一个变量。其中一个过程处理错误的话,整个数据分析结果的准确性就大打折扣。所以在数据分析中,应时刻检验数据操作是否准确无误。

 

接下来,开始分析数据!


此处为语雀文档,点击链接查看:https://www.yuque.com/codeclub/yvmeco/friz9v

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值