spark
mbshqqb
这个作者很懒,什么都没留下…
展开
-
JavaRDD和RDD的互相转换--终极版
今天在用java写GraphX项目时发现print一个VertexRDD十分困难,遇到了说lambda 返回类型不一致,print的为void,但forEach的返回值应该为scala.runtime.BoxedUnit,想到将RDD转为JavaRDD进行print,但没找到答案,后来乱点的时候发现有个toJavaRDD()函数,返回一个JavaRDD,同理,将JavaRDD转换为RDD的时候点出原创 2017-10-31 15:01:49 · 5784 阅读 · 0 评论 -
GraphX二度关系(代码)
关于GraphX的存储模式以及存储数据结构、二度关系的解释等有一个很好的网址:http://www.dataguru.cn/article-10425-1.html 该网站介绍了二度关系的算法实现,下面我给出具体的SparkGraphX实现代码:1. 先看一下数据集(一个简单的有向图):1,2 1,3 1,4 1,5 2,5 4,3 5,6 6,4要得到的结果: 我们需要通过计算求出从i节点出原创 2017-11-09 16:23:34 · 2311 阅读 · 3 评论 -
spark 调度模块详解及源码分析
spark 调度模块详解及源码分析一概述一三个主要的类1class DAGScheduler2trait TaskScheduler3trait SchedulerBackend二基本流程三TaskScheduler SchedulerBackend二DAGScheduler一用户代码中创建SparkContext对象SparkContext中创建DAGScheduler与TaskSchedule...转载 2018-04-04 17:15:10 · 295 阅读 · 0 评论 -
Spark调优
参数名 格式 参数说明 --master MASTER_URL 如spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE Client或者master,默认是client --class CLASS_NAME 应用程序的主类 --name N...原创 2018-08-21 19:09:15 · 153 阅读 · 0 评论