准备工作:下载示例数据,提取码:tkqn 数据例子数据预览
在Excel中,有个筛选的功能,可以根据条件,去筛选想要的数据,之后想删除、想修改、想添加文字,等等都比较方便。在Python中也可以根据条件,去筛选数据。
找出购买金额最多的用户
上篇文章求出购买金额最多的用户ID是A3OXHLG6DIBRW8,
根据用户ID,筛选出这名用户的所有订单:
most_sale_user = amazon_data[amazon_data['UserId']=='A3OXHLG6DIBRW8'] #购买金额最多的用户 订单
这个most_sale_user也是一个dataframe结构,可以对它进行后续的处理,如统计、修改等等。
这个amazon_data['UserId']=='A3OXHLG6DIBRW8'是长这样的:
然后再用 amazon_data[amazon_data['UserId']=='A3OXHLG6DIBRW8']去求出等于True的记录。
上面是知道购买最多的用户是A3OXHLG6DIBRW8的情况下,进行的筛选。如果一个新的数据,我并不想先查看哪个最多,想一次性就求出most_sale_user怎么办呢?
前提是有了用户购买金额的分组,也就是:
user_sales = amazon_data.groupby('UserId')['price(yuan)&