2016年06月_汤高

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 KafKa（0.10）安装部署和测试

Step 1: 下载代码http://kafka.apache.org/downloads.html0.10.0.0是最新版本。当前的稳定版本是0.10.0.0。下载0.10.0.0版本并且解压它。> tar -zxvf kafka_2.10-0.10.0.0.tgz > cd kafka_2.11-0.10.0.0Step 2: 启动服务运行kafka需要使用

2016-06-25 14:14:51 11127

原创自定义分区、数据类型、排序、分组

自定义分区、数据类型、排序、分组/** * * @author 自定义数据类型键对象 * */public class KeyPair implements WritableComparable<KeyPair> { private int year; private double hot; public int getYear() { ret

2016-06-15 10:40:50 1062

原创 Shuffle过程详解

Shuffle过程详解 Shuffle过程是MapReduce的核心，最近看了很多资料，网上说法大体相同，但有些地方有一点点出入，就是各个阶段的执行顺序总个shuffle过程可以看做是从map输出到reduce输入的这个中间过程，在这个中间过程中，经过了一系列的步骤下面看看官方给出的图 Map端下面是我画的一张图 1.In

2016-06-15 10:30:31 12778 2

原创 Spark实时流计算Java案例

现在，网上基于spark的代码基本上都是Scala，很多书上也都是基于Scala，没办法，谁叫spark是Scala写出来的了，但是我现在还没系统的学习Scala，所以只能用java写spark程序了，spark支持java，而且Scala也基于JVM,不说了，直接上代码这是官网上给出的例子，大数据学习中经典案例单词计数在linux下一个终端输入 $ nc -lk 9999 然后运行下面的代码

2016-06-07 21:20:07 16411 1

原创 Spark(1.6.1) Sql 编程指南+实战案例分析

Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。概述(Overview)Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。开始Spark SQLSpark SQL中所有功能的入口点是SQLContext类，或者它子类中的一个。为了创建一个基本的SQLCont

2016-06-06 14:12:20 13110 3

原创 Spark 算子

RDD算子分类，大致可以分为两类，即：Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。Action：行动算子，这类算子会触发SparkContext提交Job作业。一：Transformation：转换算子1.map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例：

2016-06-03 22:07:35 10421

原创 Java接入Spark之创建RDD的两种方式和操作RDD

Java接入Spark之创建RDD的两种方式和操作RDD

2016-06-02 21:49:20 46207 1

转载 30分钟--Spark快速入门指南

Spark快速入门指南 – Spark安装与基础使用 2016-01-15 (updated: 2016-03-07) 6309 29Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简单易用的

2016-06-01 17:05:56 17892 3

storm+zookeeper+maven安装包

2016-08-28

kafka学习之路

kafka原理和架构及使用

2016-07-17

hadoop-eclipse-plugin-2.6.0.jar

2016-04-23

hadoop_dll2.6.0.7z

java.io.IOException :HADOOP_HOME or hadoop.home.dir are not set. java.io.IOException:could not locate executable D:\hadoop-2.6.4\hadoop-2.6.4\bin/winutils.exe

2016-04-23

干货--Redis+Spring+Struts2实现网站计算器应用项目案例

这是我们经常在各博客见到的顶和踩的画面，对于这种场景，我们用非关系型数据库来操作是非常不方便地,不光是查询不方便(写sql语句),而且在高并发的时候，可能会使系统假死,所以redis就派上用场了,它属于非关系型数据库,它直接操作内存,非常快速。

2016-04-11

Mybatis多对多关联查询

2016-03-15

Java设计模式

设计模式贯穿于整个Java体系，我们所用的大小型框架和Java本身类库里面都用了大量的设计模式。初学者有些地方不懂没关系，知道有这回事就行了，背下每一种设计模式结构的角色（UML类图）,随着你平时本身学习Java的深入，到后面有些东西自然就明白了！这是我第三次学习设计模式，初学是在刚学Java基础不久，那时看设计模式看得云里雾里，非常抽象，看了一些就看不下去了；第二次看设计模式学了Java一年多后，已经做过一些项目了，才知道架构的重要性，所以去学校读书馆借了一本设计模式的书看，感觉以前一些不懂的地方都茅塞顿开；第三次是这次，我花了将近一个月时间整理自己学Java设计模式的心得并写了此书，本书所有知识都来源于我平时所看书籍以及在网上搜集所得，每一种设计模式都有详细的剖析和案例源代码

2016-02-13

ext对于日期格式化后为什么排序不起作用了

2016-07-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人