01、案例说明
这个案例是一个非常典型的非监督性学习,也就是大家所熟悉的菜篮子分析。我们通过对于客户的购买记录,能够整合其间产品的关系,了解哪些产品之间有共同购买的可能性。整体模型如下图所示:
02、数据资料
数据的形式是一个在实际生活中常见的状态,而不是以最理想可以分析的状态呈现,所以首先要做的事情仍然是将产品之间的关系,能够很清楚的定义出来,而作为一个组合购买,必须要以付款通知(Invoice)作为数据的结合点。
通常对于非监督性的学习,在数据观察主要是在于它的质量,而其中的互相关联性通常并不具有显著的意义,所以在这里观察是只需要确定没有必要数据的缺失就可以。
03、操作流程
Step1读入数据
这个部分直接将数据导入,并没有特别的目的。
Step2 数据整理
首先要将数据做一个整合,将在同一个付款通知数据的产品全部集合在一起。我们在这边使用的Aggregate算子,将数据重新整合,其中是使用整合这个功能,如下图所示: