Spark
文章平均质量分 78
tanglizhe1105
擅长分布式系统,热爱scala、java编程语言
展开
-
Spark GraphX的边构造过程详解——从 RDD[Edge[ED]] 到 EdgeRDD[ED, VD]
本文介绍Spark GraphX内部对边存储的机理,详解边分区内部的索引构建过程。 在最初,边是这样的 RDD[(srcId, dstId, attr)],它是(srcId, dstId, attr)这个三元组的集合。这种结构并不能提供有效的图计算,如快速找出(srcId, dstId)的属性值attr,找出以srcId为源顶点的所有边等操作若按遍历方式处理,效率将非常低。原创 2015-11-02 09:29:37 · 5326 阅读 · 1 评论 -
sbt如何建立intellij ieda工程
intellij安装scala plugin在file -> setting -> plugin里面可以安装安装sbt尽管scala plugin里面包含了sbt工具,我们还是要安装一个系统全局可以的sbt工具 安装方法详见:http://blog.csdn.net/tanglizhe1105/article/details/50528801安装sbt plugin: gen-idea该plugi原创 2016-01-16 17:02:03 · 4963 阅读 · 0 评论 -
rdd算子中能使用rdd的引用吗?
rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误: java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster这是因为客户函数将以闭包的形式发送至各个worker。若客户原创 2016-03-21 11:38:50 · 3528 阅读 · 0 评论 -
spark rdd存储开销分析
背景很多使用spark的朋友很想知道rdd里的元素是怎么存储的,它们占用多少存储空间?本次我们将以实验的方式进行测试,展示rdd存储开销性能。 关于rdd的元素怎么存储,spark里面实现了好几种不同类型的rdd,如最常见的MapPartitionsRDD,它处理map,filter,mapPartition等不引起shuffle的算子;再如ShuffledRDD它由shuffle操作生成的;像G原创 2016-04-03 16:56:25 · 3742 阅读 · 0 评论 -
intellij idea直接编译spark源码及问题解决
spark源码最容易的编译方式莫过于使用intel idea将源码文件夹直接当做工程打开。下载完所需的依赖包好,build -> Make Project即可!!!原创 2016-01-16 22:46:56 · 11914 阅读 · 1 评论 -
深入浅出之Spark任务调度
概述Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种: ShuffleMapStage 这种Stage是以Shuffle为输出边界 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出 其输出可以是另一个Stage的开始 Shuf转载 2016-03-11 11:19:02 · 1438 阅读 · 0 评论 -
Spark MLlib LDA 基于GraphX实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火的、最有力的模型之一,它能通过多轮迭代的方式把特征向量集合按主题分类。目前,广泛运用在文本主题聚类中。 LDA的开源实现有很多。目前广泛使用的、能够多机器并行处理大规模语料库的有实现有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。下面介绍这3种LDA实现的特点: LightLDA的实现依赖于微原创 2016-02-25 22:20:01 · 7273 阅读 · 5 评论 -
Spark RDD算子源码解读
结合spark1.5.0的RDD源码API及自己一年以来的开发经验,介绍Spark RDD算子的功能、原理及调用方式。原创 2015-11-02 09:34:52 · 3438 阅读 · 3 评论 -
Spark GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。 互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链原创 2016-02-25 20:29:37 · 14378 阅读 · 3 评论