spark学习分享
文章平均质量分 79
amber_amber
这个作者很懒,什么都没留下…
展开
-
RDD,弹性分布式数据集
本文参考了RDD的概述 RDD是spark计算系统的核心和精华,所以下面针对RDD进行简单的探讨。 先用一个小例子来具象描述一下RDD的主要工作过程:首先你从HDFS中以K-V格式读入一个文件file1,得到r1;r1是我们的第一个RDD,它被载入到内存中。然后对r1操作,找出所有包含“error”的记录,得到r2;r2是我们的第二个RDD原创 2014-08-25 14:43:46 · 1702 阅读 · 0 评论 -
修改hadoop源码后,hadoop和spark的编译过程
近期对hadoop2.0源码做了一些修改,根据业务需要,添加了一点小小的功能。而且我们的hadoop2.0环境上同时运行着MapReduce和spark计算框架,所以hadoop源码的修改同时涉及到了hadoop的重新编译,以及spark的重新编译。下面是对编译过程的一点记录。编译的主要难点和关键在对spark的编译。下面会详细介绍。版本:hadoop: cdh5.1.0-hadoop2.原创 2014-11-12 12:24:11 · 2406 阅读 · 0 评论 -
spark on yarn作业运行的jar包缓存优化
这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。原创 2014-12-22 15:56:45 · 10173 阅读 · 1 评论 -
spark 1.1.0 编译使用 & 爬坑记录
虽然1.2.1版本也已经出来了,估计还是有很多人在用1.1.0或者1.0.0 版本。所以把编译和使用1.1.0版本时遇到的一些问题和解决思路写在这里,供参考。因为我们对cdh版本的hadoop做了一些生产环境相关的修改,所以每次升级spark都需要基于源码自己进行编译。编译方法很简单,而且我在这篇文章 http://blog.csdn.net/amber_amber/article/detai原创 2015-03-02 16:14:31 · 6102 阅读 · 0 评论 -
Spark Streaming+kafka+eclipse编程
eclipse本身对Scala的支持不是很友好,但还是有一部分同学(比如我)习惯用eclipse来做开发。所以这里提供结合spark streaming+kafka编程在eclipse上实现的过程。###安装配置单机版kafka **如果已经有kafka,这一步跳过。参考官网介绍步骤进行。**(1) 下载kafka包并解压 > tar -xzf kafka_2.10-0.8.2.0.t原创 2015-05-27 17:15:20 · 2542 阅读 · 0 评论 -
spark1.4.1中sparkR的编译使用全过程
**本文针对那些和我一样,对spark还挺熟悉但对R知之甚少甚至之前没听过的同学,在spark引入了sparkR后才开始零基础地开始学习使用。如果你本身对R和sparkR已经很熟悉了,就不用看了。本文主要包含的内容: spark1.4.1编译 sparkR使用环境配置 sparkR的第一个例子spark1.4.1编译首先从spark官网下载spark1.原创 2015-09-06 17:33:33 · 1742 阅读 · 0 评论 -
Eclipse下Java+Scala混合编程的Maven项目
用spark + java混合实现spark项目,我想肯定有我一样坚持要用eclipse + maven来配置开发环境,而不愿意换Intelij + sbt的同学吧。照着文章中的步骤配置,完全ok。好文共享,原文挺好懂的,就不翻译了~============================== 我是正文分隔线 ==============================转载 2015-10-26 18:15:48 · 5542 阅读 · 0 评论 -
Spark 处理中文乱码问题(UTF-8编码)
问题场景要用spark处理一大堆微信日志数据,日志存放在HDFS上,是xml格式,里面有大量的中文。用scala + java实现了xml的处理逻辑,其中有一步是要获取xml中的一个title字段,中文。不管怎么抓取,最终得到的中文都会变成一堆“?????”,乱码了。从xml中获取非中文字段,没有任何问题。也就是说,代码的逻辑是没什么问题的。原创 2015-12-03 16:14:24 · 39039 阅读 · 1 评论