关联规则
文章平均质量分 91
Carolinedy
这个作者很懒,什么都没留下…
展开
-
关联规则——基于 Python 的 Apriori 算法实现
Apriori 核心思想:通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。关键概念:项集:项的集合。包含 k 个项的项集称为 k 项集,如{a,s,d}是一个3项集。 支持度:项集A、B同时发生的概率。 最小支持度:项集在统计意义上的最低重要性。 置信度:项集A发生,则项集B发生的概率。 最小置信度:关联规则的最低可靠性。 同时满足最小支持度阈值和最小置信度阈值的规则称作...原创 2018-07-12 16:59:25 · 3517 阅读 · 2 评论 -
数据挖掘流程总结及挖掘算法比较
一、数据前期探索 数据质量分析: 是数据预处理的前提主要任务:检查原始数据中是否存在脏数据脏数据:不符合要求,以及不能直接进行相应分析的数据。包括:缺失值,异常值,不一致的值,重复数据,含有特殊符号的数据。1、缺失值处理方式:删除存在缺失值的记录; 对可能值进行插补; 不处理。2、异常值(离群点)处理方式: 简单统计量分析(判断变量取值是否超出范围); ...原创 2018-08-07 15:43:52 · 8587 阅读 · 2 评论