Spark
文章平均质量分 76
Jack_F
唉生活唉社交
展开
-
Spark PageRank
如果不考虑出度为0的节点情况,方法很easy,参考官方的code。但是考虑出度为0的节点的时候,会出现各种问题先贴上代码,再说明package myclassimport org.apache.spark.SparkContextimport SparkContext._import scala.collection.mutable.ArrayBufferimport scala.c原创 2014-02-23 16:23:48 · 10073 阅读 · 0 评论 -
SparkTC :Transitive closure on a graph(图中节点的可达性)
思路:1.生成数据(from,to),为初试可达节点对数目(同时也是基本的节点跳转规则)2.对数据需要做一次链接操作,(类似于一次矩阵乘)3.将链接操作的结果提取成(from,to)形式,与当前的可达节点对做并集,得到最新的当前可达节点对数目3.比较当前可达节点对的数量与上一轮节点对数量4.若没有增加,则停止;否则,跳转至2继续执行可能还是比较晕乎乎,看实验数据原创 2014-02-27 20:50:47 · 3763 阅读 · 0 评论 -
KMeans on Spark
思路:1.随机生成数据2.随机生成K个聚类中心3.计算每个点所属的类别4.计算新的聚类中心5.比较聚类中心的变化情况,大于阈值跳转至3;小于阈值停止。package myclassimport java.util.Randomimport org.apache.spark.SparkContextimport SparkContext._import org.ap原创 2014-02-27 11:33:53 · 5719 阅读 · 4 评论 -
Spark with Hadoop InputFormat
基于Yarn的,使用新的API,SBT需要添加,默认是用的1.0.4的clientlibraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.2.0"代码如下package myclassimport org.apache.spark.SparkContextimport org.apache.hadoop.原创 2014-02-28 10:51:23 · 6966 阅读 · 2 评论 -
GraphX中Pregel单源点最短路径
GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性2.节点发送消息的函数 sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId,A)] (边元组) => Iterato原创 2014-03-04 21:54:27 · 7145 阅读 · 1 评论 -
找工作面试备忘录
Data StructureJava1.Java HashMap的工作原理2.Java应用程序中的内存泄漏及内存管理3.Java垃圾回收精粹Hadoop原创 2014-04-08 16:54:33 · 1511 阅读 · 0 评论