HCIE：第五章关联分析与推荐问题建模（学习笔记）

余生不指教

已于 2024-02-26 23:12:32 修改

阅读量886

点赞数 18

文章标签：机器学习数据挖掘

于 2024-02-21 21:30:00 首次发布

本文链接：https://blog.csdn.net/quanquan0108/article/details/136195499

版权

一、关联算法

关联规则基本概念：

项集：项的集合，包含K个项的项集成为K项集；

频繁项集：满足规定的最小支持度的项集；

支持度：表示物品集X和Y同时出现的次数占总记录数的比例。

置信度：集合X与集合Y同时出现的总次数/集合X出现的记录数。

提升度：表示含有X的条件下同时含有Y的概率占Y总体发生的概率之比。

最小支持度：专家定义的衡量支持度的阈值，表示项目集在统计意义上的最低重要性。

最小置信度：专家定义的衡量置信度的阈值，表示关联规则的最低可靠性。

强关联规则：同时满足最小支持度阈值和最小置信度阈值的规则。

提升度大于1则X->Y是有效的强关联规则，小于等于1则是无效的强关联规则。

关联规则的挖掘步骤：生成频繁项集和生成规则；找出强关联规则；找出所有满足强关联规则的项集。

（1）Apriori算法

Apriori算法为挖掘关联规则的频繁项集算法，核心思想：通过频繁项集生成和关联规则生成两个阶段来挖掘频繁项集；主要任务是设法发现事物之间的内在联系。

优缺点：

优点：使用先验原理，大大提高频繁项集逐层产生的效率；简单易理解，数据集要求低。

缺点：产生候选项目集时循环产生的组合过多，没有排除不应该参与组合的元素；每次计算项集支持度时对全部记录进行扫描比较，如果大型数据库则大大增加计算机系统的I/O开销。

算法应用：推荐系统（用关联算法做协同过滤）、不适用非重复项集数元素较多的案例，建议分析商品种类为10左右。

使用方法：Python工具库mlxtend（machine learning extensions)，通过mlxtend子模块frequent_patterns调用方法Apriori。

方法描述：Apriori(df,min_support=0.5,use_colnames=False,max_len=None,n_jobs=1)，其中df代表数据框数据集，min_support表示指定的最小支持度，use_colnames=True表示使用元素名字，默认的False使用列名代表元素，max_len表示生成的项目集的最大长度。如果为 None，则评估所有可能的项集长度。

（2）FP-growth算法

FP-growth算法采用更高级的数据结构FP-tree减少扫描数据次数，只需要两次扫描数据库。相比于Apriori算法需要多次扫描数据库的问题。

该数据结构包括三部分：

一个项头表里面记录了所有的1项频繁集出现的次数，按照次数降序排列；

FP-Tree将原始数据集映射到了内存中的一颗FP树；

节点链表所有项头表里的1项频繁集都是一个节点链表的头，它依次指向FP树种该1项频繁集出现的位置。

FP-Tree数据结构与挖掘：

从项头表的底部项依次向上挖掘；找到每一项条件模式基：以要挖掘的节点作为叶子节点所对应的FP子树，得到这个FP子树，将子树中每个节点的计数设置为叶子节点的计数，并删除计数低于支出度的节点；从条件模式基就可以递归挖掘得到频繁项集。

FP-Growth优缺点：优点：快于Apriori；缺点：实现比较困难，在某些数据集上性能会下降；适用数据类型为离散型数据。

使用方法：通过Python可以调用Spark接口Pyspark，创建 spark的环境后，调用Spark中的工具库pyspark.mllib.fpm模块中的FPGrowth方法。FPGrowth.train(transactions，minSupport，numPartitions)

FP-Growth变体FP-Max：FP-Max专注于获取最大项集。

（3）PrefixSpan（Prefix-Projected Pattern Growth）算法（前缀投影的模式挖掘）

算法思想：目的是挖掘出满足最小支持度的频繁序列，从长度为1的前缀开始挖掘序列模式，搜索对应的前缀投影数据库，得到长度为1的前缀对应的频繁序列，然后递归的挖掘长度为2的前缀对应的频繁序列，依次类推，直到某个前缀的前缀投影数据库为空时结束。

优缺点：

优点：由于不用产生候选序列、且投影数据库缩小的很快内存消耗比较稳定，作为频繁序列模式挖掘的时候效果很高。

缺点：运行时最大的消耗在递归的构造投影数据库。如果序列数据集较大，项数种类较多时，算法运行速度会有明显下降。

二、推荐算法

（1）协同过滤推荐

协同过滤（Collaborative Filtering）作为推荐算法中最经典的类型，其模型一般为n个物品，m个用户的数据，只有部分用户和部分数据之间是有评分数据的，其它部分评分是空白，此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。协同过滤推荐分为两种类型：

基于用户（User-based）的协同过滤；思想：基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。

基于项目（Item-based）的协同过滤；思想：基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。

应用场景：当用户量远远少于 Item数量时，可以考虑使用User-Based算法。当Item数量远远少于用户量时，可以使用Item-Based算法。

（2）基于内容推荐

基于内容的推荐算法（Content-Based Recommendations）是基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型，为用户提供推荐服务。基于内容的推荐算法一般只依赖于用户自身的行为为用户提供推荐，不涉及到其他用户的行为。

实现原理：根据用户的历史行为获得用户兴趣偏好，为用户推荐跟他的兴趣偏好想起的标的物。需要三步：基于用户信息及用户操作行为构建用户特征表示、基于标的物信息构建标的物特征表示、基于用户及标的物特征表示为用户推荐标的物。

基于内容的推荐算法应用场景：完全个性化推荐、标的物关联标的物推荐、配合其他推荐算法、主题推荐、给用户推荐标签。

优缺点：

优点：非常直观易懂可解释性强；可以更加容易的解决冷启动；算法实现相对简单；对于小众领域也能有比较好的推荐效果；非常适合标的物快速增长的有时效性要求的产品。

缺点：推荐范围狭窄新颖性不强；需要知道相关的内容信息且处理起来较难；较难将长尾标的物分发出去；推荐精准度不太高。

（3）基于知识推荐

基于知识的推荐技术（Knowledge-based Recommendations，KB）是专门解决这类问题的一种新的推进技术，高度重视知识源，不会存在冷启动的问题，因为推荐的需求都是被直接引出的。缺点：知识获取比较难，需要知识整理工程师将领域专家的知识整理成为规范的、可用的表达形式。