为了进一步巩固R语言的基本用法及实践场景,这里尝试利用R做一些在关联规则上的挖掘实践,这里首要感谢博主gjwang1983的文章,这里仅记录下学习的一些基本应用命令:
1.工具包的选取
规则挖掘包arules
规则可视化包arulesViz2.数据源选取加载
源数据:groceries 数据集,每一行代表一笔交易所购买的产品(item),形如:citrus fruit,semi-finished bread,margarine,ready soups tropical fruit,yogurt,coffee whole milk pip fruit,yogurt,cream cheese,meat spreads other vegetables,whole milk,condensed milk,long life bakery product whole milk,butter,yogurt,rice,abrasive cleaner rolls/buns other vegetables,UHT-milk,rolls/buns,bottled beer,liquor (appetizer) potted plants whole milk,cereals tropical fruit,other vegetables,white bread,bottled water,chocolate ......
数据转换:创建稀疏矩阵,每个Item一列,每一行代表一个transaction。1表示该transaction购买了该item,0表示没有购买。当然,data frame是比较直观的一种数据结构,但是一旦item比较多的时候,这个data frame的大多数单元格的值为0,大量浪费内存。所以,R引入了特殊设计的稀疏矩阵,仅存1,节省内存。arules包的函数read.transactions可以读入源数据并创建稀疏矩阵。
groceries <- read.transactions(“groceries.csv”, format=”basket”, sep=”,”)
3.数据查看与筛选