[每日一练]关于平均售价的思考及特殊情况解决

最新推荐文章于 2024-07-20 17:12:48 发布

伪编辑科学家

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量1k

点赞数 19

分类专栏： pandas每日一练文章标签：力扣 pandas python 数据分析

本文链接：https://blog.csdn.net/2302_77975940/article/details/139134944

版权

pandas每日一练专栏收录该内容

20 篇文章 0 订阅

订阅专栏

该题目来源于pandas库训练的力扣题库，链接为：

1251. 平均售价 - 力扣（LeetCode）

——1.题目要求：

表：Prices

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| product_id    | int     |
| start_date    | date    |
| end_date      | date    |
| price         | int     |
+---------------+---------+
(product_id，start_date，end_date) 是 prices 表的主键（具有唯一值的列的组合）。
prices 表的每一行表示的是某个产品在一段时期内的价格。
每个产品的对应时间段是不会重叠的，这也意味着同一个产品的价格时段不会出现交叉。

表：UnitsSold

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| product_id    | int     |
| purchase_date | date    |
| units         | int     |
+---------------+---------+
该表可能包含重复数据。
该表的每一行表示的是每种产品的出售日期，单位和产品 id。

编写解决方案以查找每种产品的平均售价。average_price 应该 四舍五入到小数点后两位。

返回结果表 无顺序要求 。

结果格式如下例所示。

示例 1：

输入：
Prices table:
+------------+------------+------------+--------+
| product_id | start_date | end_date   | price  |
+------------+------------+------------+--------+
| 1          | 2019-02-17 | 2019-02-28 | 5      |
| 1          | 2019-03-01 | 2019-03-22 | 20     |
| 2          | 2019-02-01 | 2019-02-20 | 15     |
| 2          | 2019-02-21 | 2019-03-31 | 30     |
+------------+------------+------------+--------+
UnitsSold table:
+------------+---------------+-------+
| product_id | purchase_date | units |
+------------+---------------+-------+
| 1          | 2019-02-25    | 100   |
| 1          | 2019-03-01    | 15    |
| 2          | 2019-02-10    | 200   |
| 2          | 2019-03-22    | 30    |
+------------+---------------+-------+
输出：
+------------+---------------+
| product_id | average_price |
+------------+---------------+
| 1          | 6.96          |
| 2          | 16.96         |
+------------+---------------+
解释：
平均售价 = 产品总价 / 销售的产品数量。
产品 1 的平均售价 = ((100 * 5)+(15 * 20) )/ 115 = 6.96
产品 2 的平均售价 = ((200 * 15)+(30 * 30) )/ 230 = 16.96

——python思路(初步)

首先用merge函数对两个表格进行合并，然后对数据进行清洗(将所有的日期列转化为日期形式)。之后用query或切片方法进行合理数据的查询(查询销售日期在开始日期和结束日期之间的数据)。然后利用agg聚合函数对价格和数量进行分组求和，最后按照计算出平均价格即可。

——python实现(初步)

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    # 清洗数据
    data['start_date'] = pd.to_datetime(data['start_date'])
    data['end_date'] = pd.to_datetime(data['end_date'])
    data['purchase_date'] = pd.to_datetime(data['purchase_date'])
    # 进行条件筛选
    df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
    df['总价']=df['price']*df['units']
    # 计算平均售价
    result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
    result['average_price'] = (result['总价'] / result['units']).round(2)
    result = result[['product_id', 'average_price']]
    return result

——特殊情况分析

很显然，这个代码可以完成题目的基础要求，可不适用于正真的业务处理。因为我们没有注意细节问题的解决。这里有一个特殊情况：有一个商品3，它有开始和结束日期，但没有purchase_date，也就是说，这个商品没有卖出去。可老板要求显示所有的商品来清算库存，初步的代码就会带来严重的失误。

问题详情：

'''输入
Prices =
| product_id | start_date | end_date   | price |
| ---------- | ---------- | ---------- | ----- |
| 1          | 2019-02-17 | 2019-02-28 | 5     |
| 1          | 2019-03-01 | 2019-03-22 | 20    |
| 2          | 2019-02-01 | 2019-02-20 | 15    |
| 2          | 2019-02-21 | 2019-03-31 | 30    |
| 3          | 2019-02-21 | 2019-03-31 | 30    |
UnitsSold =
| product_id | purchase_date | units |
| ---------- | ------------- | ----- |
| 1          | 2019-02-25    | 100   |
| 1          | 2019-03-01    | 15    |
| 2          | 2019-02-10    | 200   |
| 2          | 2019-03-22    | 30    |
输出
| product_id | average_price |
| ---------- | ------------- |
| 1          | 6.96          |
| 2          | 16.96         |
预期结果
| product_id | average_price |
| ---------- | ------------- |
| 1          | 6.96          |
| 2          | 16.96         |
| 3          | 0             |
'''

——问题诊断

问题出现在没有显示出商品3并且用0填充空缺值。

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    return data
'''
| product_id | start_date | end_date   | price | purchase_date | units |
| ---------- | ---------- | ---------- | ----- | ------------- | ----- |
| 1          | 2019-02-17 | 2019-02-28 | 5     | 2019-02-25    | 100   |
| 1          | 2019-02-17 | 2019-02-28 | 5     | 2019-03-01    | 15    |
| 1          | 2019-03-01 | 2019-03-22 | 20    | 2019-02-25    | 100   |
| 1          | 2019-03-01 | 2019-03-22 | 20    | 2019-03-01    | 15    |
| 2          | 2019-02-01 | 2019-02-20 | 15    | 2019-02-10    | 200   |
| 2          | 2019-02-01 | 2019-02-20 | 15    | 2019-03-22    | 30    |
| 2          | 2019-02-21 | 2019-03-31 | 30    | 2019-02-10    | 200   |
| 2          | 2019-02-21 | 2019-03-31 | 30    | 2019-03-22    | 30    |
| 3          | 2019-02-21 | 2019-03-31 | 30    | NaT           | null  |...
'''

对代码进行测试，发现问题似乎出现在合并表格这一步。当我们合并入商品3时，它的purchase_date和ubits为null值。这就会导致在后续的查询数据代码时：

df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]

将商品3消除，导致BUG。

如何解决呢？很简单，把商品3的purchase_date补上，任何在补齐purchase_date的同时不被查询函数删除呢？直接套用其他商品的purchase_date即可。这里就需要用到向下填充函数了：

# 数据框[某一列].fillna(method='ffill') 这里参数method=ffill表示向下填充空值

——python实现

import pandas as pd

def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
    # 合并两个表格
    data = prices.merge(units_sold, how='left', on='product_id')
    # 向下填充，以便于于后续的操作
    data['purchase_date'] = data['purchase_date'].fillna(method='ffill')
    # 清洗数据
    data['start_date'] = pd.to_datetime(data['start_date'])
    data['end_date'] = pd.to_datetime(data['end_date'])
    data['purchase_date'] = pd.to_datetime(data['purchase_date'])
    
    # 进行条件筛选
    df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
    df['总价']=df['price']*df['units']
    # 计算平均售价
    result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
    result['average_price'] = (result['总价'] / result['units']).round(2)
    result = result[['product_id', 'average_price']]
    # 不能直接用0填充空值，需得转换类型，空值填充才能生效。
    result['average_price'] = result['average_price'].astype(float).fillna(0)
    return result.fillna(0)

！！！注意：在最后填充平均值的时候，要求先把数值形式改为浮点是才可以填充，不然会最终显示商品3的平均价格为null而不是0！这其实也算一种数据清洗吧，有可能average_price形式是其他未知的类型，先对其进行浮点数类型的转换才可以进行数据的空值填充。

伪编辑科学家

关注

19
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
[每日一练]关于平均售价的思考及特殊情况解决

注意：在最后填充平均值的时候，要求先把数值形式改为浮点是才可以填充，不然会最终显示商品3的平均价格为null而不是0！这其实也算一种数据清洗吧，有可能average_price形式是其他未知的类型，先对其进行浮点数类型的转换才可以进行数据的空值填充。很简单，把商品3的purchase_date补上，任何在补齐purchase_date的同时不被查询函数删除呢？每个产品的对应时间段是不会重叠的，这也意味着同一个产品的价格时段不会出现交叉。该表的每一行表示的是每种产品的出售日期，单位和产品 id。
复制链接

扫一扫