Clementine 关联规则
【流9(9.2).str】
9.2.3 Apriori算法的应用示例
这里,利用Clementine提供的超市顾客个人信息和他们的一次购买商品数据,讲解Aprioir算法的具体操作。
数据文件名为BASKETS.txt,为文本格式文件。数据包括两大部分的内容,第一部分是顾客的个人信息,主要变量有会员卡号(cardid)、消费金额(value)、支付方式(pmethod)、性别(sex)、是否户主(homeown)、年龄(age)、收入(income);第二部分是顾客的一次购买商品的信息,主要变量有果蔬(fruitveg)、鲜肉(freshmeat)、奶制品(dairy)、罐头蔬菜(cannedveg)、罐头肉(cannedmeat)、冷冻食品(frozenmeal)、啤酒(beer)、葡萄酒(wine)、软饮料(softdrink)、鱼(fish)、糖果(confectionery),均为二分类型变量,取值T表示购买,F表示未购买,是一种事实表的数据组织格式。分析目标是哪些商品最有可能同时购买。
通过可变文件(Var.File)节点读入数据,选择建模(Modeling)卡中的Apriori节点并将其连接到数据流的恰当位置上,右击鼠标,选择弹出菜单中的编辑(Edit)选项进行参数设置,显示的窗口如图9-3(a)所示。
(a)参数设置窗口 (b) 模型(Model)选项卡
图9-3 Apriori的参数设置窗口及其模型(Model)选项卡
图9-3 (a)中的具体参数设置如下。
●使用类型节点设置(Use type node settings)表示采用数据流中类型(Type)节点 所指定的变量角色建立模型。本例没有设置类型(Type)节点,所以选择使用定制设置(Use Custom sett