2018年07月_疯狂呼呼呼

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Spark累加器剖析（2） —— 累加器执行的过程

Spark累加器系列文章： Spark累加器剖析（1） —— 介绍 & 重点类 & 源码解析综述Driver端 Driver端初始化构建Accumulator并初始化同时完成了Accumulator注册：Accumulators.register(this) 同时Accumulator会在序列化后发送到Executor端Driver接收到ResultTas...

2018-07-29 17:30:19 4235

原创 Spark累加器剖析（1） —— 介绍 & 重点类 & 源码解析

由于最近在项目中需要用到Spark的累加器，同时需要自己去自定义实现Spark的累加器，从而满足生产上的需求。对此，对Spark的累加器实现机制进行了追踪学习。本系列文章，将从以下几个方面入手，对Spark累加器进行剖析：Spark累加器的基本概念累加器的重点类构成累加器的源码解析累加器的源码解析累加器使用中的坑自定义累加器的实现参考文章：累加器实现机制及自定义累加...

2018-07-28 01:15:33 3459

原创 Flume收集log到HDFS（雏形）

Flume系列文章： Flume 概述 & 架构 & 组件介绍 Flume 使用入门 & 入门Demo在本篇文章中，将继续介绍Flume的使用Flume的使用场景监控某个文件，并把新增的内容输出到HDFS(这是离线处理的典型的一个场景) Agent的技术选型，该如何选择？在这里我们的选择如下：exec sourcememory channel...

2018-07-22 00:28:45 1773

原创 HBase Shell & Java API

HBase Shellhelp命令查看帮助：hbase(main):001:0> help 'status'Show cluster status. Can be 'summary', 'simple', 'detailed', or 'replication'. Thedefault is 'summary'. Examples: hbase> status...

2018-07-21 23:41:03 959

原创 HBase读写流程 & 模块协作

HBase写流程假如说我们要插入一条数据到某个表里面，会经历的过程如下图：概述Client会先访问zookeeper，得到对应的RegionServer地址Client对RegionServer发起写请求，RegionServer接受数据写入内存当MemStore的大小达到一定的值后，flush到StoreFile并存储到HDFS详细流程Client首先会去访问Z...

2018-07-21 23:24:24 964

原创 HBase简介 & 数据存储模型 & 对比RDBMS & 基础架构 & 环境部署

HBase简介及其在大数据生态圈的位置HBase简介HBase是一个分布式的、面向列的开源数据库来源于google的Bigtable HBase在Hadoop之上提供了类似于Bigtable的能力（是基于Hadoop的HDFS进行存储）HBase不同于一般的关系数据库，它适合非结构化数据存储Bigtable是什么 Bigtable是压缩的、高性能的、高可扩展性的、基于Googl...

2018-07-21 23:13:27 2061