[每日一练]关于平均售价的思考及特殊情况解决

该题目来源于pandas库训练的力扣题库,链接为:

1251. 平均售价 - 力扣(LeetCode)

——1.题目要求:

表:Prices

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| product_id    | int     |
| start_date    | date    |
| end_date      | date    |
| price         | int     |
+---------------+---------+
(product_id,start_date,end_date) 是 prices 表的主键(具有唯一值的列的组合)。
prices 表的每一行表示的是某个产品在一段时期内的价格。
每个产品的对应时间段是不会重叠的,这也意味着同一个产品的价格时段不会出现交叉。

表:UnitsSold

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| product_id    | int     |
| purchase_date | date    |
| units         | int     |
+---------------+---------+
该表可能包含重复数据。
该表的每一行表示的是每种产品的出售日期,单位和产品 id。

编写解决方案以查找每种产品的平均售价。average_price 应该 四舍五入到小数点后两位

返回结果表 无顺序要求 。

结果格式如下例所示。

示例 1:

输入:
Prices table:
+------------+------------+------------+--------+
| product_id | start_date | end_date   | price  |
+------------+------------+------------+--------+
| 1          | 2019-02-17 | 2019-02-28 | 5      |
| 1          | 2019-03-01 | 2019-03-22 | 20     |
| 2          | 2019-02-01 | 2019-02-20 | 15     |
| 2          | 2019-02-21 | 2019-03-31 | 30     |
+------------+------------+------------+--------+
UnitsSold table:
+------------+---------------+-------+
| product_id | purchase_date | units |
+------------+---------------+-------+
| 1          | 2019-02-25    | 100   |
| 1          | 2019-03-01    | 15    |
| 2          | 2019-02-10    | 200   |
| 2          | 2019-03-22    | 30    |
+------------+---------------+-------+
输出:
+------------+---------------+
| product_id | average_price |
+------------+---------------+
| 1          | 6.96          |
| 2          | 16.96         |
+------------+---------------+
解释:
平均售价 = 产品总价 / 销售的产品数量。
产品 1 的平均售价 = ((100 * 5)+(15 * 20) )/ 115 = 6.96
产品 2 的平均售价 = ((200 * 15)+(30 * 30) )/ 230 = 16.96

——python思路(初步)

首先用merge函数对两个表格进行合并,然后对数据进行清洗(将所有的日期列转化为日期形式)。之后用query或切片方法进行合理数据的查询(查询销售日期在开始日期和结束日期之间的数据)。然后利用agg聚合函数对价格和数量进行分组求和,最后按照计算出平均价格即可。

——python实现(初步)

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    # 清洗数据
    data['start_date'] = pd.to_datetime(data['start_date'])
    data['end_date'] = pd.to_datetime(data['end_date'])
    data['purchase_date'] = pd.to_datetime(data['purchase_date'])
    # 进行条件筛选
    df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
    df['总价']=df['price']*df['units']
    # 计算平均售价
    result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
    result['average_price'] = (result['总价'] / result['units']).round(2)
    result = result[['product_id', 'average_price']]
    return result

——特殊情况分析

很显然,这个代码可以完成题目的基础要求,可不适用于正真的业务处理。因为我们没有注意细节问题的解决。这里有一个特殊情况:有一个商品3,它有开始和结束日期,但没有purchase_date,也就是说,这个商品没有卖出去。可老板要求显示所有的商品来清算库存,初步的代码就会带来严重的失误。

问题详情:

'''输入
Prices =
| product_id | start_date | end_date   | price |
| ---------- | ---------- | ---------- | ----- |
| 1          | 2019-02-17 | 2019-02-28 | 5     |
| 1          | 2019-03-01 | 2019-03-22 | 20    |
| 2          | 2019-02-01 | 2019-02-20 | 15    |
| 2          | 2019-02-21 | 2019-03-31 | 30    |
| 3          | 2019-02-21 | 2019-03-31 | 30    |
UnitsSold =
| product_id | purchase_date | units |
| ---------- | ------------- | ----- |
| 1          | 2019-02-25    | 100   |
| 1          | 2019-03-01    | 15    |
| 2          | 2019-02-10    | 200   |
| 2          | 2019-03-22    | 30    |
输出
| product_id | average_price |
| ---------- | ------------- |
| 1          | 6.96          |
| 2          | 16.96         |
预期结果
| product_id | average_price |
| ---------- | ------------- |
| 1          | 6.96          |
| 2          | 16.96         |
| 3          | 0             |
'''

——问题诊断

问题出现在没有显示出商品3并且用0填充空缺值。

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    return data
'''
| product_id | start_date | end_date   | price | purchase_date | units |
| ---------- | ---------- | ---------- | ----- | ------------- | ----- |
| 1          | 2019-02-17 | 2019-02-28 | 5     | 2019-02-25    | 100   |
| 1          | 2019-02-17 | 2019-02-28 | 5     | 2019-03-01    | 15    |
| 1          | 2019-03-01 | 2019-03-22 | 20    | 2019-02-25    | 100   |
| 1          | 2019-03-01 | 2019-03-22 | 20    | 2019-03-01    | 15    |
| 2          | 2019-02-01 | 2019-02-20 | 15    | 2019-02-10    | 200   |
| 2          | 2019-02-01 | 2019-02-20 | 15    | 2019-03-22    | 30    |
| 2          | 2019-02-21 | 2019-03-31 | 30    | 2019-02-10    | 200   |
| 2          | 2019-02-21 | 2019-03-31 | 30    | 2019-03-22    | 30    |
| 3          | 2019-02-21 | 2019-03-31 | 30    | NaT           | null  |...
'''

对代码进行测试,发现问题似乎出现在合并表格这一步。当我们合并入商品3时,它的purchase_date和ubits为null值。这就会导致在后续的查询数据代码时:

df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]

将商品3消除,导致BUG。

如何解决呢?很简单,把商品3的purchase_date补上,任何在补齐purchase_date的同时不被查询函数删除呢?直接套用其他商品的purchase_date即可。这里就需要用到向下填充函数了:

# 数据框[某一列].fillna(method='ffill') 这里参数method=ffill表示向下填充空值

——python实现

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    # 向下填充,以便于于后续的操作
    data['purchase_date'] = data['purchase_date'].fillna(method='ffill')
    # 清洗数据
    data['start_date'] = pd.to_datetime(data['start_date'])
    data['end_date'] = pd.to_datetime(data['end_date'])
    data['purchase_date'] = pd.to_datetime(data['purchase_date'])
    
    # 进行条件筛选
    df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
    df['总价']=df['price']*df['units']
    # 计算平均售价
    result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
    result['average_price'] = (result['总价'] / result['units']).round(2)
    result = result[['product_id', 'average_price']]
    # 不能直接用0填充空值,需得转换类型,空值填充才能生效。
    result['average_price'] = result['average_price'].astype(float).fillna(0)
    return result.fillna(0)

!!!注意:在最后填充平均值的时候,要求先把数值形式改为浮点是才可以填充,不然会最终显示商品3的平均价格为null而不是0!这其实也算一种数据清洗吧,有可能average_price形式是其他未知的类型,先对其进行浮点数类型的转换才可以进行数据的空值填充。

  • 19
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值