关联规则-频繁模式挖掘

最新推荐文章于 2024-09-09 21:45:00 发布

PeixinYe

最新推荐文章于 2024-09-09 21:45:00 发布

阅读量609

点赞数

分类专栏： Hadoop 算法文章标签：频繁模式挖掘

本文链接：https://blog.csdn.net/PeixinYe/article/details/79809780

版权

算法同时被 2 个专栏收录

117 篇文章 2 订阅

订阅专栏

Hadoop

47 篇文章 2 订阅

订阅专栏

基本概念：

二院表示：每一行对应一个事务，每一列对应一个项，项用二元变量表示；

项集：包括0个或多个项的集合，包含K个称为K-项集；

事物的宽度：事务中项的个数；

频繁项集：满足最小支持度阈值的所有项集；

强规则：频繁项集中提取出的高置信度的规则；

关联规则三个指标：

Support（支持度）：表示A和B的事务所占所有事务的比例，Support=P（A&B）；

Confidence（置信度）：表示包含A的事务中同时包含B的比例，Confidence=P（A&B）/P（A）；

LIft（提升度）：表示Confidence与P（B）的比值，Lift=（P（A&B）/P（A））/P（B）=P（A&B）/P（A）/P（B）；其值反映A、B的相关性，越>1正相关越高，越<1负相关越高，=1不相关；一般>3为认可关联标准；

KULC=0.5*P(B|A)+0.5*P(A|B)；（有效降低零事务造成的影响）

IR=P(B|A)/P(A|B)，IR用来事务平衡性；（对商品的喜爱程度）

附案例代码：

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Test").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    // 测试数据， 为方便分析问题
    // 左边一列是用户，有三个用户a,b,c
    // 右边一列是公司，表示用户喜欢的公司
    val testData = Array(
      ("a", "google"),
      ("a", "apple"),
      ("a", "mi"),
      ("b", "google"),
      ("b", "apple"),
      ("c", "google")
    )
    val data = sc.parallelize(testData)

    // 最终我们要构造出这样的结果：公司A、公司B、支持度、A->B的置信度、B->A的置信度
    // 要求支持度和置信度就需要三个值，喜欢A公司的人数，喜欢B公司的人数，同时喜欢A和B公司的人数
    // 我们先求前两个
    val companyCountRDD = data.map(a => (a._2, 1)).reduceByKey(_ + _)

    /**
      * (mi,1)
      * (google,3)
      * (apple,2)
      */
    companyCountRDD.collect().foreach(println)

    // 要计算同时喜欢A和B公司的人数，要先知道A，B所有可能的组合
    // 比如：1， 2， 3,；所有可能的组合就是（1,2）,（1,3）,（2,3）
    // 这里我们简单的用cartesian算子实现
    // cartesian算子会得到这样的结果：
    // （1,1），（1,2），（1,3），
    // （2,1），（2,2），（2,3），
    // （3,1），（3,2），（3,3）
    // 然后filter算子，只保留左边大于右边的结果，这样能过滤掉相等的结果，如（1,1），还有重复的结果，如（2,1），因为我们已经有（1,2）了
    val cartesianRDD = companyCountRDD.cartesian(companyCountRDD).filter(tuple => tuple._1._1 > tuple._2._1).map(t => ((t._1._1, t._2._1), (t._1._2, t._2._2)))

    // 这样我们不但得到了A和B的所有组合，还顺带聚合了计算用的到的数据
    /** 公司A、公司B、喜欢A公司的人数、喜欢B公司的人数
      * ((mi,google),(1,3))
      * ((mi,apple),(1,2))
      * ((google,apple),(3,2))
      */
    cartesianRDD.collect().foreach(println)

    // 下面开始计算，同时喜欢A和B公司的人数
    // 比如a这个人，它喜欢google,apple,mi; 那么就是同时喜欢(mi,google)，(mi,apple)，(google,apple)
    // 所以我们先要将数据转换成(a, (google,apple,mi))
    // 这个时候用户就没用了，我们只需要知道公司的组合
    // 因此转换成(mi,google)，(mi,apple)，(google,apple)
    // 最后用flatMap将结果打散，再计数
    val userCompaniesRDD = data.groupByKey().cache()
    val meanwhileRDD = userCompaniesRDD.map(_._2)
      // 这里采用了类似cartesian的做法计算所有的组合，然后过滤掉不需要的
      .flatMap(iter => iter.flatMap(i => iter.map(j => (i, j))).filter(tuple => tuple._1 > tuple._2))
      .map(tuple => (tuple, 1))
      .reduceByKey(_ + _)
    // 计算用户总数，后面会用到
    val userNum = userCompaniesRDD.count()

    /** 公司A、公司B、同时喜欢A和B公司的人数
      * ((mi,apple),1)
      * ((mi,google),1)
      * ((google,apple),2)
      */
    meanwhileRDD.collect().foreach(println)

    val calRDD = cartesianRDD.join(meanwhileRDD)

    /** 公司A、公司B、喜欢A公司的人数，喜欢B公司的人数，同时喜欢A和B公司的人数
      * ((mi,apple),((1,2),1))
      * ((mi,google),((1,3),1))
      * ((google,apple),((3,2),2))
      */
    calRDD.collect.foreach(println)

    // 计算结果
    val resultRDD = calRDD.map(t => {
      val aCompany = t._1._1
      val bCompany = t._1._2
      val aCount = t._2._1._1
      val bCount = t._2._1._2
      val aAndbCount = t._2._2 * 1.0
      // 公司A、公司B、支持度、A->B的置信度、B->A的置信度
      (aCompany, bCompany, aAndbCount / userNum, aAndbCount / aCount, aAndbCount / bCount)
    })

    /**
      * (mi,apple,0.3333333333333333,1.0,0.5)
      * (mi,google,0.3333333333333333,1.0,0.3333333333333333)
      * (google,apple,0.6666666666666666,0.6666666666666666,1.0)
      */
    resultRDD.collect.foreach(println)

    // 最后可以过滤掉数值太低的
    // 支持度的阈值是1%，置信度阈值50%
    val support = 0.01
    val confidence = 0.5
    resultRDD.filter(a => a._3 > support && a._4 > confidence && a._5 > confidence).collect().foreach(println)
  }
}