一、提出问题
1、哪一种物品是卖得最好的?
2、在一天中什么时间段,面包店的销售量最高?
3、客人单次购买一次购买几种产品,那些产品更多组合购买,可否针对此店家进行组合销售?
二、理解数据
理解数据集列名,数据集中一共四个列名:日期、时间、交易号、产品,数据集的列名较为简单,不是很难理解。其中相同的交易号意味着同一次购买多种物品。
三、数据清洗
1.选择子集
因为数据中只有四列数据,每一个列都可以提供帮助,选择都不隐藏(清洗数据时,不建议删除数据列,可隐藏,或备份后再处理)
2.列名重命名
鼠标点击相应列名可以直接修改。
3.删除重复项
因为此数据中没有唯一标识码,而且因为是交易的流水数据,因此同一个商品在同一次购买中可能出现两次。如果有需要处理,可点击删除重复项的工具,弹出的对话框中选择唯一标识列,可以是多个的。
4.缺失值处理
这个数据集相对简单,记录流水数据,缺少记录的可能性不高,我们平常数据可能出现缺失值,可能是忘记登记数据、爬虫时丢失数据等等,对比几列的数据行,如果相等表示无缺失。
缺失值处理