该题目来源于pandas库训练的力扣题库,链接为:
——1.题目要求:
表:Prices
+---------------+---------+ | Column Name | Type | +---------------+---------+ | product_id | int | | start_date | date | | end_date | date | | price | int | +---------------+---------+ (product_id,start_date,end_date) 是prices
表的主键(具有唯一值的列的组合)。prices
表的每一行表示的是某个产品在一段时期内的价格。 每个产品的对应时间段是不会重叠的,这也意味着同一个产品的价格时段不会出现交叉。
表:UnitsSold
+---------------+---------+ | Column Name | Type | +---------------+---------+ | product_id | int | | purchase_date | date | | units | int | +---------------+---------+ 该表可能包含重复数据。 该表的每一行表示的是每种产品的出售日期,单位和产品 id。
编写解决方案以查找每种产品的平均售价。average_price
应该 四舍五入到小数点后两位。
返回结果表 无顺序要求 。
结果格式如下例所示。
示例 1:
输入: Prices table: +------------+------------+------------+--------+ | product_id | start_date | end_date | price | +------------+------------+------------+--------+ | 1 | 2019-02-17 | 2019-02-28 | 5 | | 1 | 2019-03-01 | 2019-03-22 | 20 | | 2 | 2019-02-01 | 2019-02-20 | 15 | | 2 | 2019-02-21 | 2019-03-31 | 30 | +------------+------------+------------+--------+ UnitsSold table: +------------+---------------+-------+ | product_id | purchase_date | units | +------------+---------------+-------+ | 1 | 2019-02-25 | 100 | | 1 | 2019-03-01 | 15 | | 2 | 2019-02-10 | 200 | | 2 | 2019-03-22 | 30 | +------------+---------------+-------+ 输出: +------------+---------------+ | product_id | average_price | +------------+---------------+ | 1 | 6.96 | | 2 | 16.96 | +------------+---------------+ 解释: 平均售价 = 产品总价 / 销售的产品数量。 产品 1 的平均售价 = ((100 * 5)+(15 * 20) )/ 115 = 6.96 产品 2 的平均售价 = ((200 * 15)+(30 * 30) )/ 230 = 16.96
——python思路(初步)
首先用merge函数对两个表格进行合并,然后对数据进行清洗(将所有的日期列转化为日期形式)。之后用query或切片方法进行合理数据的查询(查询销售日期在开始日期和结束日期之间的数据)。然后利用agg聚合函数对价格和数量进行分组求和,最后按照计算出平均价格即可。
——python实现(初步)
import pandas as pd
def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
# 合并两个表格
data = prices.merge(units_sold, how='left', on='product_id')
# 清洗数据
data['start_date'] = pd.to_datetime(data['start_date'])
data['end_date'] = pd.to_datetime(data['end_date'])
data['purchase_date'] = pd.to_datetime(data['purchase_date'])
# 进行条件筛选
df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
df['总价']=df['price']*df['units']
# 计算平均售价
result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
result['average_price'] = (result['总价'] / result['units']).round(2)
result = result[['product_id', 'average_price']]
return result
——特殊情况分析
很显然,这个代码可以完成题目的基础要求,可不适用于正真的业务处理。因为我们没有注意细节问题的解决。这里有一个特殊情况:有一个商品3,它有开始和结束日期,但没有purchase_date,也就是说,这个商品没有卖出去。可老板要求显示所有的商品来清算库存,初步的代码就会带来严重的失误。
问题详情:
'''输入
Prices =
| product_id | start_date | end_date | price |
| ---------- | ---------- | ---------- | ----- |
| 1 | 2019-02-17 | 2019-02-28 | 5 |
| 1 | 2019-03-01 | 2019-03-22 | 20 |
| 2 | 2019-02-01 | 2019-02-20 | 15 |
| 2 | 2019-02-21 | 2019-03-31 | 30 |
| 3 | 2019-02-21 | 2019-03-31 | 30 |
UnitsSold =
| product_id | purchase_date | units |
| ---------- | ------------- | ----- |
| 1 | 2019-02-25 | 100 |
| 1 | 2019-03-01 | 15 |
| 2 | 2019-02-10 | 200 |
| 2 | 2019-03-22 | 30 |
输出
| product_id | average_price |
| ---------- | ------------- |
| 1 | 6.96 |
| 2 | 16.96 |
预期结果
| product_id | average_price |
| ---------- | ------------- |
| 1 | 6.96 |
| 2 | 16.96 |
| 3 | 0 |
'''
——问题诊断
问题出现在没有显示出商品3并且用0填充空缺值。
import pandas as pd
def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
# 合并两个表格
data = prices.merge(units_sold, how='left', on='product_id')
return data
'''
| product_id | start_date | end_date | price | purchase_date | units |
| ---------- | ---------- | ---------- | ----- | ------------- | ----- |
| 1 | 2019-02-17 | 2019-02-28 | 5 | 2019-02-25 | 100 |
| 1 | 2019-02-17 | 2019-02-28 | 5 | 2019-03-01 | 15 |
| 1 | 2019-03-01 | 2019-03-22 | 20 | 2019-02-25 | 100 |
| 1 | 2019-03-01 | 2019-03-22 | 20 | 2019-03-01 | 15 |
| 2 | 2019-02-01 | 2019-02-20 | 15 | 2019-02-10 | 200 |
| 2 | 2019-02-01 | 2019-02-20 | 15 | 2019-03-22 | 30 |
| 2 | 2019-02-21 | 2019-03-31 | 30 | 2019-02-10 | 200 |
| 2 | 2019-02-21 | 2019-03-31 | 30 | 2019-03-22 | 30 |
| 3 | 2019-02-21 | 2019-03-31 | 30 | NaT | null |...
'''
对代码进行测试,发现问题似乎出现在合并表格这一步。当我们合并入商品3时,它的purchase_date和ubits为null值。这就会导致在后续的查询数据代码时:
df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
将商品3消除,导致BUG。
如何解决呢?很简单,把商品3的purchase_date补上,任何在补齐purchase_date的同时不被查询函数删除呢?直接套用其他商品的purchase_date即可。这里就需要用到向下填充函数了:
# 数据框[某一列].fillna(method='ffill') 这里参数method=ffill表示向下填充空值
——python实现
import pandas as pd
def average_selling_price(prices: pd.DataFrame, units_sold: pd.DataFrame) -> pd.DataFrame:
# 合并两个表格
data = prices.merge(units_sold, how='left', on='product_id')
# 向下填充,以便于于后续的操作
data['purchase_date'] = data['purchase_date'].fillna(method='ffill')
# 清洗数据
data['start_date'] = pd.to_datetime(data['start_date'])
data['end_date'] = pd.to_datetime(data['end_date'])
data['purchase_date'] = pd.to_datetime(data['purchase_date'])
# 进行条件筛选
df = data[(data['purchase_date'] >= data['start_date']) & (data['purchase_date'] <= data['end_date'])]
df['总价']=df['price']*df['units']
# 计算平均售价
result = df.groupby('product_id').agg({'总价': 'sum', 'units': 'sum'}).reset_index()
result['average_price'] = (result['总价'] / result['units']).round(2)
result = result[['product_id', 'average_price']]
# 不能直接用0填充空值,需得转换类型,空值填充才能生效。
result['average_price'] = result['average_price'].astype(float).fillna(0)
return result.fillna(0)
!!!注意:在最后填充平均值的时候,要求先把数值形式改为浮点是才可以填充,不然会最终显示商品3的平均价格为null而不是0!这其实也算一种数据清洗吧,有可能average_price形式是其他未知的类型,先对其进行浮点数类型的转换才可以进行数据的空值填充。