数据挖掘
Panpan Wei
机器学习,数据挖掘,自然语言处理,深度学习
展开
-
关联规则挖掘算法-FP-tree算法
FP-tree两个主要步骤: 1. 利用事务数据库中的数据构造FP-tree; 2. 从FP-tree中挖掘频繁模式。 具体过程: 1.扫描数据库一次,得到频繁1-项集。 2.把项按支持度递减排序。 3.再一次扫描数据库,建立FP-tree。 为了方便大家理解,下面附上一个简单的例子。 给出一个具体的事务数据库: 利用出现的次数计算频繁1-项目集。 重新调整事务数据库:(在这里是对于每一个Items进行调整,把支持度高的放在前面) 创建根结点和频繁项目表: 加入第一个事务(I2原创 2020-05-22 19:59:13 · 3006 阅读 · 0 评论 -
关联规则挖掘算法-Apriori算法
Apriori算法: Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。 Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 Apriori的性质: 性质1:频繁项集的所有非空子集必为频繁项集。 性质2:非频繁项集的超集一定是非频繁的。 算法流程: 下面介绍一下此算法具体实例: 在原创 2020-05-22 11:40:24 · 1241 阅读 · 0 评论 -
数据上的关联规则
关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系,是数据挖掘中的一个重要的课题。 先简单介绍一下关联规则挖掘中涉及的几个基本概念: 定义1:项与项集 数据库中不可分割的最小单位信息,称为项目,用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集,I中项目的个数为k,则集合I称为k项集。 定义2:事务 设I={i1, i2, ..., ik}是由数据库...原创 2019-12-23 10:10:39 · 2810 阅读 · 0 评论