Spark-GraphX,Spark-Streaming
Spark GraphX基本操作练习
Spark Shell上练习Spark GraphX的图信息、结构、属性、邻接聚集、缓存等操作。将以上测试代码组织成scala文件,编译并运行。
1,导入spark,和GraphX
2,创建顶点
3,创建边
4,建立属性图
5,图运算符
numEdges-边数量
numVertices-顶点数量
inDegrees-入度
outDegrees-出度
degrees-度
reverse-逆转边的方向
subgraph-获取子图
mask-求两个图的交集
groupEdges-边的合并
mapVertices
mapEdges
mapTriplets----------------------aggregateMessages
6,邻接聚集
7,缓存
Spark GraphX算法实例练习
基于GraphX实现PageRank、连通分量、三角形计数、单源最短路径等(可选其二)。
PageRank:
三角形计数:
结果:
Spark Streaming初步实践
不同的流数据输入源(文件流、套接字流、RDD队列流,三选一。有余力,可挑战Kafka),无状态转换操作与有状态转换操作API,不同输出(文件、数据库,二选一)。
1,套接字流: