数据挖掘
caizhongda
这个作者很懒,什么都没留下…
展开
-
Clementine算法-------------决策树 C&RT、CHAID、QUEST、C5.0的区别
决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。优点: 1) 可以生成可以理解的规则; 2) 计算量相对来说不是很大; 3) 可以原创 2011-07-15 23:11:48 · 5774 阅读 · 0 评论 -
决策树之分类回归树(C&RT)
分类回归树 Classification and RegressionTree(C&RT) 优点(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);(原创 2011-07-15 23:16:28 · 18693 阅读 · 1 评论 -
2.3 推荐器的评估
差值的平均值这是一个推荐引擎的工作,用来解释下面的问题:“对用户来说,怎么的推荐数据才是最好的”。在搞清楚这个的答案之前,我们首先应该解决这个问题。一个好的推荐数据精度指的是什么?我们需要知道产出一个怎么样的推荐器来产生他们?本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具,当我们开始思考特殊的推荐系统时,它将会是很有用的。最优秀的推荐器,能够感知你的心灵。它以某种方式知道你可能原创 2011-12-23 14:34:14 · 1294 阅读 · 1 评论 -
网游商业智能系统数据采集内容设计
【此版本为联众版,系统是韩国人设计的;与盛大等公司不同之处在于,盛大BI系统是以PRAPA模型为指导思想为基础建立的。目前国内网游公司商业智能体系比较完善的当属腾讯和盛大,完美和畅游的不曾有深度了解,联众版可以满足一般性公司使用了,在数据可视化方面还需要你们自己探索了。】 【每日】【用户数量描述】1、在线人数:(取当日某个时刻最高在线,一般在9:30左右)2、新进原创 2012-04-06 16:13:53 · 1203 阅读 · 0 评论 -
Hadoop0.23.0初探1---前因后果
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1)扩展性问题。可以随着数据量进行原创 2012-08-30 12:31:23 · 1377 阅读 · 0 评论