- 博客(22)
- 收藏
- 关注
原创 Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10
目前spark的Run on的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0
2014-04-21 18:15:59 29629 2
原创 Spark0.91使用sbt编译Unresolved依赖问题
最近测试一下spark0.91编译hadoop0.20.2-cdh3u5.经常出现
2014-04-21 14:13:58 8980
原创 Ubuntu12.04安装ganglia监控
Ganglia是UC Berkeley发起的一个开源实时监视项目,用于测量数以千计的节点,为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。Gmond:Gmond运行在每台计算机上,它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。Gmetad:Gmetad运行在Cluster的一台主机上,作为Web Server,或者用于与W
2014-04-18 00:17:38 2308
原创 Spark Streaming的WindowedDStream
Spark Streaming的 窗口操作的类WindowedDStream下面我们一起探究一下,Spark Streaming怎么实现chu
2014-04-15 18:34:48 4543
原创 Spark Streaming的窗口操作
1.Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。
2014-04-15 18:16:24 21142
原创 Scala的cons,集合合并与添加
scala对集合的元素合有特殊的符号,比如::和:::简单说明一下:双冒号是连接 一个元素 和 一个集合
2014-04-11 16:30:23 5868 1
原创 Scala 的 yield
Scala 的 yield 例子 (for 循环和 yield 的例子)2012-09-28 — Unmi我看了《Programming in Scala》一书,仍然对 Scala yield 关键字的理解不甚清楚。起初我以为 Scala yield 的与 Ruby 的 yield 是一样,Ruby 中 yield 是被传入代码块的占位符。Scala 中的 yield 关键
2014-04-09 14:49:44 10595
原创 Spark RDD Transformation 详解---Spark学习笔记7
这几天学习了Spark RDD transformation 和 action ,做个笔记记录下心得,顺便分享给大家。1. 启动spark-shell SPARK_MASTER=local[4] ./spark-shell.shWelcome to ____ __ / __/__ ___ _____/ /__ _\ \/
2014-04-04 16:09:41 22264 2
原创 hiveUDAF求中位数
第一次写UDAF,拿中位数来练手。看下中位数定义:MEDIAN 中位数(一组数据按从小到大的顺序依次排列,处在中间位置的一个数或最中间两个数据的平均数)写成genericUDAF的形式1 2 3 4 中位数 2+3/2=2.51 2 3 中位数 2附上代码:package org.apache.hadoop.hive.ql.udf.generic;
2014-04-03 13:15:05 7920 1
原创 spark应用开发---Spark学习笔记6
如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId = org.apache.sparkartifactId = spark-core_2.9.3version = 0.8.1-incubatin
2014-04-03 00:05:54 3751
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人