- 博客(8)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
原创 KafKa(0.10)安装部署和测试
Step 1: 下载代码http://kafka.apache.org/downloads.html0.10.0.0是最新版本。 当前的稳定版本是0.10.0.0。下载0.10.0.0版本并且解压它。> tar -zxvf kafka_2.10-0.10.0.0.tgz > cd kafka_2.11-0.10.0.0Step 2: 启动服务运行kafka需要使用
2016-06-25 14:14:51 11127
原创 自定义分区、数据类型、排序、分组
自定义分区、数据类型、排序、分组/** * * @author 自定义数据类型 键对象 * */public class KeyPair implements WritableComparable<KeyPair> { private int year; private double hot; public int getYear() { ret
2016-06-15 10:40:50 1062
原创 Shuffle过程详解
Shuffle过程详解 Shuffle过程是MapReduce的核心,最近看了很多资料,网上说法大体相同,但有些地方有一点点出入,就是各个阶段的执行顺序总个shuffle过程可以看做是从map输出到reduce输入的这个中间过程,在这个中间过程中,经过了一系列的步骤 下面看看官方给出的图 Map端下面是我画的一张图 1.In
2016-06-15 10:30:31 12778 2
原创 Spark实时流计算Java案例
现在,网上基于spark的代码基本上都是Scala,很多书上也都是基于Scala,没办法,谁叫spark是Scala写出来的了,但是我现在还没系统的学习Scala,所以只能用java写spark程序了,spark支持java,而且Scala也基于JVM,不说了,直接上代码这是官网上给出的例子,大数据学习中经典案例单词计数 在linux下一个终端 输入 $ nc -lk 9999 然后运行下面的代码
2016-06-07 21:20:07 16411 1
原创 Spark(1.6.1) Sql 编程指南+实战案例分析
Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。概述(Overview)Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。开始Spark SQLSpark SQL中所有功能的入口点是SQLContext类,或者它子类中的一个。为了创建一个基本的SQLCont
2016-06-06 14:12:20 13110 3
原创 Spark 算子
RDD算子分类,大致可以分为两类,即:Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。Action:行动算子,这类算子会触发SparkContext提交Job作业。一:Transformation:转换算子1.map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:
2016-06-03 22:07:35 10421
转载 30分钟--Spark快速入门指南
Spark快速入门指南 – Spark安装与基础使用 2016-01-15 (updated: 2016-03-07) 6309 29Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的
2016-06-01 17:05:56 17892 3
hadoop_dll2.6.0.7z
2016-04-23
干货--Redis+Spring+Struts2实现网站计算器应用项目案例
2016-04-11
Java设计模式
2016-02-13
ext对于日期格式化后为什么排序不起作用了
2016-07-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人