spark
MYSELFZHANG
这个作者很懒,什么都没留下…
展开
-
intellij 和 spark 源码
主体上:http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/ 详细版:http://www.tuicool.com/articles/3yy67fU 均为linux上教程,注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij IDEA中。原创 2016-03-02 11:25:03 · 315 阅读 · 0 评论 -
hadoop的log日志查错
1.stderr http://datanode31:8042/node/containerlogs/container_1457675328277_0208_01_000002/***/stderr?start=0 即可转到相应datanode上查错。 2. kill 3.warn原创 2016-03-16 20:58:03 · 2509 阅读 · 0 评论 -
跑spark作业,众多版本jar包管理
1.jar名命名为main class名, 2.记录相关输入输出文件及格式, 3.记录作业号 4.用web页面中的kill,这样会保存跑作业的情况,命令行中ctrl+c则不会保存原创 2016-03-18 11:31:27 · 774 阅读 · 0 评论 -
graph shortestpaths和pregel、mapReduceTriplets等中发送消息方向问题
以mapReduceTriplets代码为例,sendMsg中id决定了接收消息的点,而activeSetOpt: Option[(VertexRDD[_], EdgeDirection)] = None中的EdgeDirection指定了哪些和顶点相邻的边处理sendMsg。如果该方向是in,则作用于目标顶点在VertexRDD中的边。如果方向是out,则作用在那些源顶点在vertexRDD中的原创 2016-03-08 10:29:21 · 890 阅读 · 0 评论 -
spark编程遇到的问题
问题1:16/03/14 15:22:24 WARN yarn.YarnAllocator: Container killed by YARN for exceeding memory limits. 17.0 GB of 17 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead. 解决:原创 2016-03-14 15:56:47 · 5094 阅读 · 1 评论 -
Windows平台下sbt的安装设置
首先到http://www.scala-sbt.org/release/docs/Getting-Started/Setup.html下载windows的sbt包,zip,tar.gz都行。 将下载的包解压到你指定的目录,我一般是解压到d:\dev\sbt目录,d:\dev下是日常工作中所用到的开发工具软件,比如eclipse、jdk、maven等等。 Windows的sbt包解压后,转载 2016-04-09 23:34:59 · 797 阅读 · 0 评论 -
spark shell ,在Windows上build Spark
在本机(Windows 8)上安装spark玩一玩,Spark的Quick Start上没有指明具体步骤,自己Build好了之后把步骤记录一下。 首先,到Spark的官网上下载Spark的压缩包,然后解压缩到本地文件夹。我下的是Spark 1.1.0,目前最新的release,链接spark-1.1.0.tgz。 按照文档上运行bin/spark-shell,会提示找不到所转载 2016-04-09 23:32:56 · 1916 阅读 · 0 评论 -
intellj配置spark源码 attach
1.选中spark函数,ctrl+左单击看源码,点右上角,attach source code 2.下载https://github.com/apache/spark,解压后,从attach source code 弹出框内选择该文件即可原创 2016-04-10 10:42:44 · 616 阅读 · 0 评论 -
Map output statuses were bytes which exceeds spark.akka.frameSize
spark.akka.frameSize 是worker和driver通信的每块数据大小,控制Spark中通信消息的最大容量 (如 task 的输出结果),默认为10M。当处理大数据时,task 的输出可能会大于这个值,需要根据实际数据设置一个更高的值。如果是这个值不够大而产生的错误,可以从 worker的日志 中进行排查。通常 worker 上的任务失败后,master 的运行日志上出现”L原创 2016-05-17 15:27:43 · 2174 阅读 · 0 评论