零售关联分析(购物篮分析)的数据源及预处理(二)

文章讲述了购物篮交易数据的格式,包括传统的基于关系型数据库的结构化数据和现代的Json格式。在数据分析中,异常值如离群点可能需要剔除或特别关注,而关联分析如相关性、购物篮和时间序列分析则使用不同的数据源和处理方法。购物篮数据的清洗也涉及去除无意义的项目,如塑料袋。
摘要由CSDN通过智能技术生成

购物篮交易数据的格式、异常值及适应对象:
购物篮数据来自于POS机,POS机于1990年代开始在零售业普及,其间恰好是关系型数据库的商业化应用阶段,因此大多数购物篮数据都是基于关系型数据库的架构构建及存储,属于典型的结构化数据。
因此就会有这种现象 存在,即将一个购物篮数据分别存储在2个数据表单中:订单主表(Master)和订单明细表(Detail),二个表之间采取订单号(order_id)作为外键(foreign key)进行关联,形成一个完整的购物篮数据,一个购物篮数据对应了一个顾客的消费行为。

近年来由于Java语言及云端数据库的普及,有些POS软件采取了Json格式进行订单数据存储,将交易数据中的Master表与detail表合并,形成统一的Json数据包,Json数据包会产生冗余、但是便于编程,Json数据包属于半结构化数据,需要转换为结构化数据(semi-structured basket data to the structured format),才可以进行购物篮分析。

购物篮数据的离群点(Outlier):在进行购物篮数据分析时,会出现某些离群点数据,即超出正常状态的数值,比如某超市购物篮系数基本在在2-3件,假定出现了几个购物篮系数在30以上的购物篮,就可以认为是偶发性的离群点,予以剔除。但是有些离群点可能具有商业价值,比如门店附近新家庭的出现,导致某些购物篮的系数突然变大,此时需要予以特别关注。

在现实中,有些对于购物篮分析没有实际意义的数据项需要剔除,最常见的就是很多购物篮数据中会有塑料袋,而塑料袋对于购物篮分析没有实质上的价值,可以予以剔除。

零售关联分析的三种数据分析手段及对应的数据源:
零售业关联分析主要有三种基本类型,而三种分析类型对应的数据对象如下:
Ø 相关性分析:进行商品之间的相关性分析时,需要从购物篮数据的订单明细表提取商品销售数据,包含商品的名称、价格、销售数量等信息,将商品销售数据从购物篮订单明细中剥离拆开后进行合并汇总,一般汇总为销售日报形式。
Ø 购物篮分析:在进行传统购物篮分析时,使用的数据表需要从订单明细表中提取,此时不能拆开购物篮,需要以购物篮为基本分析单元,并根据分析目的、结合外部数据与隐含属性,对商品之间的关联规则进行挖掘。
时间序列关分析:时间系列关联分析的数据源要看序列分析的目的,如果是会员的购买行为,则需要订单主表(master级别),并需要带有订单时间戳数据,若进行顾客商品购物序列等分析,需要结合订单明细级别数据。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值