data mining
wychen_sunshine
一生最忌见识短浅,故步自封。
展开
-
mapreduce 工作原理
参考网址:http://blog.csdn.net/thomas0yang/article/details/8562910/原创 2017-03-03 16:19:44 · 446 阅读 · 0 评论 -
hadoop 实现简单的wordcount实例
前置条件: 在hadoop官网下载某个版本的zip文件,这里下载的版本是2.7.3,将其解压刀你的电脑的某个目录中,这里为:D:\dev\hadoop-2.7.3 下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.7.3/ src的是文件源码,有需要的可以下载下来研究~ 配置环境变量: HADOOP_HOME D:\dev\had原创 2017-03-29 10:47:06 · 1077 阅读 · 0 评论 -
关联规则挖掘算法-CATS Tree(Compressed and Arranged Transaction Sequences Tree)
CATS Tree压缩排序事务树 FPTree的一个扩展 允许单路径频繁模式挖掘 适用于多种支持度、流数据、增量数据的情况算法基本过程数据集 新建root节点 扫描TID1,构建CATS Tree 每个节点计数为1 扫描TID2,可以看出两条数据的共同路径是f-a-c-m,而已构建额树结构中不包含item:d 则从d的父节点M建立分支,将之后的节点顺序加入facm节点数加1,其余新增节原创 2017-10-24 16:38:48 · 535 阅读 · 0 评论 -
关联规则挖掘算法-CANTree(canonical-order tree)
算法衍生过程Leung等提出的一种基于树结构所改进的算法:CANTree(canonical-order tree),这种算法不用考虑候选项集,而且解决了FELINE和AFPIM所存在问题。CanTree的构建只需一次数据库扫描,这一点不同于需要两次数据库扫描的FPTree。在CanTree中,项是根据某种序列排序的,这种序列可以由用户在挖掘过程之前或者挖掘过程中决定。1.CanTree的构建首先原创 2016-12-04 23:14:27 · 2787 阅读 · 0 评论 -
关联规则挖掘算法-Top Down FP-Growth
TD-FP-Growth两次数据库扫描 一次扫描计数 一次扫描建树树结构的构建仍是FP-Tree的思想挖掘频繁项集与之前的不同:从上到下依次挖掘算法思想1.扫描数据库,构建项头表 项头表包括三个属性:itemName itemCount side-link side-link主要是用来标注该item在树结构中所在的位置集合如下图可以很清晰的看出来: 2.构建树的过程在这里就不详细记录了原创 2017-10-25 14:44:03 · 1369 阅读 · 0 评论 -
树结构的理解——平衡二叉树
1.概念理解: 若要理解平衡二叉树(AVL),先要理解二叉排序树,很好理解,二叉排序树有这样的特点:若左子树不为空,则左子树上所有节点的值均小于它的根节点的值;若右子树不为空,则右子树的所有节点的值均大于根节点的值,左右子树也分别为二叉排序树。 简单看一个二叉排序树的例子: 好了,现在大概了解了二叉排序树的特点,接下来认识一下平衡二叉树,它是为了减少二叉排序树左右子树...原创 2018-03-05 14:41:06 · 575 阅读 · 0 评论 -
树结构的理解——B-tree
1、概念:B树和平衡二叉树稍有不同的是B树属于多叉树又名平衡多路查找树(查找路径不只两个),数据库索引技术里大量使用者B树和B+树的数据结构,让我们来看看他有什么特点;2、规则:(1)树种的每个节点最多拥有m个子节点且m>=2,空树除外(注:m阶代表一个树节点最多有多少个查找路径,m阶=m路,当m=2则是2叉树,m=3则是3叉);(2)除根节点外每个节点的关键字数量大于等于cei...转载 2018-03-05 15:58:10 · 1962 阅读 · 0 评论 -
alibaba trace_201708 数据集简介
1。原文地址 1.简介 数据中心增长的大规模的在线服务以及批处理作业的联合分配被用来提升数据中心的效率。这种联合分配为现有的集群管理系统带来了很大的挑战,特别是一起工作的用来提升集群利用率和效率的服务和作业的调度。 跟随我们认为的学术团体和工业界比较感兴趣的研究热点,我们提取出以下挑战:负载特性:我们如何能够以一种有代表性的方式为调度器研究模拟各种生产工作负载的方式来描述阿里巴巴工作负...原创 2018-05-29 23:43:12 · 2689 阅读 · 0 评论