![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
亚信联创大数据平台li
这个作者很懒,什么都没留下…
展开
-
Running Shark Locally 及可能出现的问题
Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/s转载 2014-02-25 14:48:44 · 1525 阅读 · 0 评论 -
详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2014-03-30 23:20:48 · 35687 阅读 · 8 评论 -
DPark安装及相关资料整理
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。这篇文章主要记录DPark的一些资料及我在安装时的一些问题转载 2014-03-23 21:23:08 · 4944 阅读 · 0 评论 -
Spark 0.9.1 MLLib 机器学习库
Spark 0.9.1 MLLib 机器学习库简介这篇Spark MLLib 机器学习库的简介翻译自Spark官方文档。感谢 @明风 的悉心的校对修改。Spark 0.9.1 MLLib机器学习库简介依赖二元分类线性回归聚类协同过滤隐性反馈 vs 显性反馈梯度下降基础算法用Scala调用MLLib转载 2014-05-12 22:13:32 · 10675 阅读 · 3 评论 -
腾讯TDW千台Spark千亿节点对相似度计算
本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例,通过实验对比,我们优化后的性能是MapReduce的6倍以上,是GraphX的2倍以上。转载 2014-11-10 09:01:46 · 1542 阅读 · 0 评论