spark
文章平均质量分 91
汤高
喜欢开源的框架技术、乐于研究其底层源码,把个人从学习到工作中用到的所有技术梳理总结,也分享给所有爱学习新技术的朋友们,相互交流,一起进步
展开
-
Spark实时流计算Java案例
现在,网上基于spark的代码基本上都是Scala,很多书上也都是基于Scala,没办法,谁叫spark是Scala写出来的了,但是我现在还没系统的学习Scala,所以只能用java写spark程序了,spark支持java,而且Scala也基于JVM,不说了,直接上代码这是官网上给出的例子,大数据学习中经典案例单词计数 在linux下一个终端 输入 $ nc -lk 9999 然后运行下面的代码原创 2016-06-07 21:20:07 · 16411 阅读 · 1 评论 -
Spark(1.6.1) Sql 编程指南+实战案例分析
Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。概述(Overview)Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。开始Spark SQLSpark SQL中所有功能的入口点是SQLContext类,或者它子类中的一个。为了创建一个基本的SQLCont原创 2016-06-06 14:12:20 · 13111 阅读 · 3 评论 -
Java接入Spark之创建RDD的两种方式和操作RDD
Java接入Spark之创建RDD的两种方式和操作RDD原创 2016-06-02 21:49:20 · 46209 阅读 · 1 评论 -
30分钟--Spark快速入门指南
Spark快速入门指南 – Spark安装与基础使用 2016-01-15 (updated: 2016-03-07) 6309 29Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的转载 2016-06-01 17:05:56 · 17892 阅读 · 3 评论 -
Spark安装
我的安装版本是spark-1.6.1-bin-hadoop2.6.tgz 这个版本必须要求jdk1.7或者1.7以上安装spark必须要scala-2.11 版本支撑 我安装的是scala-2.11.8.tgz tg@master:/software$ tar -zxvf scala-2.11.8.tgz tg@master:/sof原创 2016-05-31 17:30:36 · 8510 阅读 · 0 评论 -
Spark 算子
RDD算子分类,大致可以分为两类,即:Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。Action:行动算子,这类算子会触发SparkContext提交Job作业。一:Transformation:转换算子1.map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:原创 2016-06-03 22:07:35 · 10421 阅读 · 0 评论