数据挖掘
倾城琉璃
这个作者很懒,什么都没留下…
展开
-
数据挖掘系列(四)聚类算法评价指标
一、Not Given Label:1、Compactness(紧密性)(CP) CP计算 每一个类 各点到聚类中心的平均距离 CP越低意味着类内聚类距离越近 缺点:没有考虑类间效果2、Separation(间隔性)(SP) SP计算 各聚类中心两两之间平均距离转载 2017-07-30 14:50:08 · 2725 阅读 · 0 评论 -
数据挖掘系列(3)--关联规则评价
前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则 看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包转载 2017-07-27 15:11:35 · 1235 阅读 · 0 评论 -
数据挖掘系列(2)--关联规则FpGrowth算法
上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构造一个树结构来压缩数据记转载 2017-07-27 15:09:00 · 599 阅读 · 0 评论 -
数据挖掘(1):关联规则挖掘基本概念与Aprior算法
原文出处: fengfenggirl(@也爱数据挖掘) 我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤转载 2017-07-27 14:20:24 · 497 阅读 · 0 评论