spark
文章平均质量分 80
棉拖先生
这个作者很懒,什么都没留下…
展开
-
spark学习笔记二:scala语言基础2
控制抽象控制抽象指的是看上去像是编程语言关键字的函数,创建并使用控制抽象,可以简化代码量和复杂度,像使用if、while等内建控制语法一样使用自定义的控制抽象。要实现控制抽象,一般要使用到以下几个技术:1. 高阶函数(higher-orderfunction)。使用函数作为参数的函数。好处是减少代码的重复,因为可以把算法的不通用部分提取出来,由用户作为参数传入。2.原创 2015-02-06 15:40:12 · 3090 阅读 · 0 评论 -
spark学习笔记三:spark原理介绍
基本介绍Spark是UC Berkeley AMPlab推出的分布式计算框架,目前有替代mapreduce的趋势。Spark使用scala语言开发,支持的策略开发语言有:scala、python、java。Spark的整个生态系统称为伯克利数据分析栈(BDAS)。Spark是伯克利数据分析栈(BDAS)的计算核心,相当于电脑中的CPU。Spark可以完全融入hadoop生态系统(比原创 2015-02-06 15:46:46 · 3492 阅读 · 0 评论 -
spark学习笔记四:spark集群搭建
安装包编译spark官网已经针对hadoop的2.4+版本、2.3版本、1.x版本等提供了编译好的安装包。在某些情况下,需要自己编译spark。用maven编译的方法是:1. 安装好maven,下载和解压源码2. 设置环境变量在linux下运行:export MAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M -XX:Reserve原创 2015-02-06 15:48:36 · 954 阅读 · 0 评论 -
spark学习笔记五:spark编程
Spark编程Window下的IDE环境安装ide前先安装scala。我在配置eclipse的过程中遇到一些莫名其妙的问题。建议直接使用IntelliJ IDEA。使用方法如下。1. 使用IntelliJ IDEA新建普通项目或maven项目。2. 以普通项目为例,新建项目后,需要依赖spark的jar包,在安装包中可以找到,名为spark-assembly-*原创 2015-02-06 15:50:15 · 2505 阅读 · 0 评论 -
spark学习笔记六:Spark Streaming
基本介绍Spark创建流式应用的本质,还是依赖了spark最核心的那些技术,只是在这些技术上又封装了一层流式接口。Spark的streaming机制简单来说,就是将连续的时间序列切割成不同的离散时间段。针对某个时间段,将该时间段内的所有输入数据组成一个RDD,接下来的工作就如同一个传统的sprark应用一样,对这个RDD进行各种变换,直到最终输出数据。可以认为,Spark Streamin原创 2015-02-06 15:52:08 · 8435 阅读 · 0 评论 -
spark学习笔记一:scala语言基础
这篇文章是《scala编程》的笔记。Scala基于java,是一种函数式编程+过程式编程的混合语言。可以使用解释器交互执行,也可以编译成jar包。 变量Scala 有两种变量, val (引用不可变)和 var(引用可变)变量的定义和赋值语句是:val msg2: java.lang.String = "Helloagain, world!"msg2是变量名,jav原创 2015-01-26 14:07:50 · 1803 阅读 · 0 评论