spark
文章平均质量分 66
coco_ethan
Your rose,My love!
展开
-
Spark集群安装
需要的软件包:Spark1.1.0转载 2014-09-26 16:11:40 · 1141 阅读 · 0 评论 -
RDD中cache和persist的区别
转载自:http://www.ithao123.cn/content-6053935.html[摘要:经过视察RDD.scala源代码便可晓得cache战persist的差别: def persist (newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE newLevel !=转载 2016-06-19 22:20:33 · 1203 阅读 · 0 评论 -
Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java heap space 解决方法
问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limit exceeded这两种错误之前我一直认为是executor的内存给的不够,但是仔细分析发现其实并不是executor内存给的不足,而是原创 2016-06-18 20:56:14 · 11996 阅读 · 0 评论 -
Spark:用Scala和Java实现WordCount
注:本文博客转至http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWo转载 2016-03-14 12:50:50 · 1514 阅读 · 0 评论 -
Spark API编程动手实战-06-对搜狗日志文件深入实战操作
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:上传到服务器后,解压并查看:查看Sogou文件内容:该文件的格式如下所示:访问时间 \t转载 2016-03-02 09:37:51 · 484 阅读 · 0 评论 -
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者转载 2016-01-17 22:31:36 · 450 阅读 · 0 评论 -
SparkPi例子运行出错解决方法
按照《Spark实战高手之路-第1章》的前四节,搭建完Spark集群及IDEA集成环境后,最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步,让我花了三天时间才最终完成。所以,这里详细介绍解决方法,让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。1.在《Spark实战高手之路-第1章(4)》的最后,说要以本地模式过行,则在 Edit Configurations原创 2014-12-19 22:45:15 · 3959 阅读 · 0 评论 -
spark java api 调用时报
java.lang.ClassNotFoundException: JavaWordCount$1在调用spark给的例子中,我们会碰到提交运行的时候会报空指针问题。那时因为spark集群中找不到你制定的class,所以我们需要手动的将包添加到当前的job中。以JavaWordCount为例,修改后的代码如下:/** Licensed to the Apache Soft原创 2014-12-21 14:52:54 · 3043 阅读 · 0 评论 -
Spark1.0.0 应用程序部署工具spark-submit
随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切。Spark1.0.0的出现,这个问题得到了逐步改善。从Spark1.0.0开始,Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在local、Standalone、YARN、Mesos上的快捷部署。1:使用说明转载 2014-10-10 22:34:25 · 693 阅读 · 0 评论 -
使用IntelliJ IDEA开发Spark1.0.0应用程序
之所以写本篇是因为后面很多博客需要例程来解析或说明。本篇是Spark1.0.0 开发环境快速搭建中关于客户端IDE部分的内容,将具体描述:如何安装scala开发插件如何创建项目和配置项目属性如何编写源代码如何将生成的程序包 至于如何运行程序包,请参见应用程序部署工具spark-submit 。 注意,客户端和虚拟集群中hadoop、spark、s转载 2014-10-10 22:37:25 · 934 阅读 · 0 评论 -
SparkStreaming之基本数据源输入
输入DStreams表示从数据源获取的原始数据流。Spark Streaming拥有两类数据源(1)基本源(Basic sources):这些源在StreamingContext API中直接可用。例如文件系统、套接字连接、Akka的actor等。(2)高级源(Advanced sources):这些源包括Kafka,Flume,Kinesis,Twitter等等。1、转载 2016-10-28 20:03:37 · 2076 阅读 · 0 评论