本文数据是来自datacastle网站上的一道竞赛题,是基于关联规则进行商品推荐之类的题目
数据集中还包含了对商品的评分和购买时间两个额外变量,下面这篇文章并没有使用到这一个变量,
特别是对商品的评分这个变量,包含了很多有用的信息。
所以说,这篇文章还是一个半成品,有空会补上。
#读入数据
data = read.csv("数据.csv",stringsAsFactors=F)
data = data[1:57528,] #取训练集
write.table(data,'shopping.txt') #导出成txt,为导入成transactions做准备
#导出后,在txt文件中,进行替换查找,格式如下:<pre name="code" class="plain">分别是行名,id,商品,评分,购买时间
1 1 1 5 874965758
2 1 3 4 878542960
3 1 4 3 876893119
4 1 5 3 889751712
5 1 7 4 875071561
6 1 9 5 878543541
7 1 13 5 875071805
8 1 15 5 875071608
9 1 16 5 878543541
10 1 18 4 887432020
11 1 19 5 875071515
library(arules)
#读入成tra