使用spark进行关联规则挖掘:
1 首先数据全部处理为分类变量
2 使用spark mllib 中的FPGrowth挖掘关联规则
存在问题
1 数据需要处理成sparse格式,也有人称basket格式
2 版本原因会报错:
java.lang.IllegalArgumentException: Can not set
final scala.collection.mutable.ListBuffer field org.apache.spark.mllib.fpm.FPTree$Summary.nodes to scala.collection.mutable.ArrayBuffer
Serialization trace:
nodes (org.apache.spark.mllib.fpm.FPTree$Summary)