大数据分析
colorknight
这个作者很懒,什么都没留下…
展开
-
流处理框架Storm简介
转自:http://qing.weibo.com/2294942122/88ca09aa33002dsh.htmlEMC中国研究院 向东 提起Big Data,人们往往会提起大数据的4个V: Volume,Velocity , Variety 以及Value。这四个V从各个侧面说明了大数据并不是新瓶装旧酒: 面对数据产生来源,产生方式,处理方式等等一系列质变,原来适用的数转载 2013-03-23 23:03:30 · 2058 阅读 · 0 评论 -
如何在Hadoop2上远程调试MapReduce
1.单机安装Hadoop2.x。2.修改mapper-site.xml配置EntityMap entityMap = new EntityMapImpl();entityMap.putEntity("num", 12);entityMap.putEntity("num1", 3);entityMap.putEntity("num2", 4);try {原创 2014-11-18 23:10:59 · 1315 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
原文参见:http://www.iteblog.com/archives/1188摘要 本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图转载 2014-11-25 23:18:06 · 980 阅读 · 0 评论 -
备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具
SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。 SPSS不用多说,一款成功的商业数据分析软件,涵盖了统计分析、数据挖掘分析等各种数据分析方法。界面简单易用,分析过程定义时非常直观方便。因为,原创 2013-08-02 16:31:52 · 4727 阅读 · 0 评论