浩先生_FOREVER-CSDN博客

转载 HDFS NameNode重启优化

在Hadoop集群整个生命周期里，由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启，不论采用何种架构，重启期间集群整体存在可用性和可靠性的风险，所以优化NameNode重启非常关键。

2017-03-18 13:48:35 918

转载 grep命令

转载自：http://man.linuxde.net/grep grep（global search regular expression(RE) and print out the line，全面搜索正则表达式并把行打印出来）是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。选项 -a 不要忽略二进制数据。 -A 除了显示符合范本样式的那一行之外，并显示该行之

2018-01-08 17:17:09 349

Region是RS上的基本数据服务单位，用户表格由1个或者多个Region组成，根据Table的Schema定义，在Region内每个ColumnFamily的数据组成一个Store。每个Store内包括一个MemStore和若干个StoreFile(HFile)组成。如图(3)所示。本小节将介绍Store内的MemStore、StoreFile(HFile)的内部结构与实现。1. MemStore

2017-04-03 19:54:35 592

原创 HBase学习之HRegionServer概述

在之前博文中分析了HMaster的启动以及其在整个系统中的作用，在本篇文章中，我们将继续讨论HBase中另外一个重要的角色—-HRegionServer，文章中所涉及的相关知识点会后续更新。**RegionServer的功能模块分析**话不多说，直接上图来看一下RegionServer的整体功能图（本文的整体思路亦是按照这个功能图展开的）：从上图可以看出RegionServer是通过RPC协议与HM

2017-04-03 19:25:40 13448 1

原创 HBase学习之负载均衡（balance）

负载均衡是计算机网络领域的一个专业术语，该术语在分布式系统领域应用非常广泛。对于HBase来讲，不同节点（RegionServer）用户请求需要负载均衡技术，其实在HBase很早的版本中已经实现了负载均衡，0.92版本后HBase的负载均衡算

2017-04-01 21:59:06 19991

原创 HBase负载均衡之集群负载的评分方法

HMater负责把region均匀到各个region server 。hmaster中有一个线程任务是专门处理负责均衡的，默认每隔5分钟执行一次。每次负载均衡操作可以分为两步：生成负载均衡计划表Assignment Manager 类执行计划表

2017-04-01 20:20:13 3556

转载 java synchronized详解

Java语言的关键字，当它用来修饰一个方法或者一个代码块的时候，能够保证在同一时刻最多只有一个线程执行该段代码。一、当两个并发线程访问同一个对象object中的这个synchronized(this)同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。二、然而，当一个线程访问object的一个synchronized(this)同步代码

2017-03-27 23:00:46 346 1

转载关于MySQL中使用LOAD DATA INFILE导入csv文件时的日期格式问题

在使用MySQL时，常常会用到Load Data Infile来导入数据，在遇到Date类型的列时，有时会遇到格式转换的问题

2017-03-15 20:56:50 10199

转载 HBase的RowKey设计原则

Hbase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，指定rowkey获取唯一一条记录通过scan方式，设置startRow和stopRow参

2017-03-13 21:08:44 366

原创 HBase表结构设计----模式构建

要知道HB阿瑟的表如何创建，首先需要了解Hbase的模式结构，包括表、Rowkey、列族、Timestamp（时间版本）。其实模式是一个三维有序结构，前面三个维度确定一行数据。 HBase的模式不同于关系型数据库（RDBMS），HBase与RDBMS的区别在于：HBase的单元格（cell）所在的行是有序的，其列（Qualifier）在所属列族（Column Family）存在的情况下，可以通过客

2017-03-13 19:23:05 1958

转载 HBase数据模型解析和基本的表设计分析

官方推荐博客原文地址：HBase是一个开源可伸缩的针对海量数据存储的分布式nosql数据库，它根据Google Bigtable数据模型来建模并构建在hadoop的hdfs存储系统之上。它和关系型数据库Mysql, Oracle等有明显的区别，HBase的数据模型牺牲了关系型数据库的一些特性但是却换来了极大的可伸缩性和对表结构的灵活操作。在一定程度上，Hbase又可以看成是以行键(Row Key),

2017-03-12 20:27:30 407

原创 HBase的核心模块介绍

众所周知，Hadoop框架包括两个核心组件：HDFS和MapReduce，其中HDFS是文件存储系统，负责数据存储；MapReduce是计算框架，负责数据计算。它们之间分工明确、低度耦合、相互关联。对于Hbase数据库的核心组件可以分为4个模块：客户端Client、协调服务模块zooKeeper、主节点HMaster、和Region节点RegionServer，这些组件的描述和相互之间的关联如下图：

2017-03-12 20:19:04 2782

原创 MapReduce的容错机制

前言：MapReduce计算框架提供了很好的容错机制，本篇文章就是来介绍该框架是如何来容错的，我们可以从错误出现的情况来探讨该框架是如何容错的，常见的错误有作业错误、网络错误甚至数据错误。任务出错任务出错是比较常见的，引起错误的原因通常有低质量的代码、数据损坏、节点暂时性故障、一个任务出现下列三种情况的任意一种时被认为出错。（1）抛出一个没有铺货的异常（

2017-03-03 20:07:22 4706

原创 shuffle过程中sort总结

写在前面的话：新学期开学想重新复习一下Hadoop的知识，不断更新自己的知识库，在今天晚上阅读的过程中发现，有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法，以及sort的次数。今天我将其总结一下：排序贯穿于Map任务和Reduce任务，是MapReduce非常重要的一环，排序操作属于MapReduce计算

2017-03-03 20:01:29 4528 3

原创 YARN学习小结（一）----yarn入门了解

Yarn是第二代Hadoop的重要组成部分，它和HDFS共同成为Hadoop的基础，让Hadoop变得更加成熟、更开放。Yarn的出现使集群资源利用率大大提升，双层调度模式有避免了JobTracker的并发瓶颈，可插拔的调度器又似的Yarn可以满足不同类型的调度需求。

2017-02-21 11:18:52 2756

原创 Hadoop-从mapper中输出不同值的类型的数据

问题来源：在执行reduce端join操作时，或者我们在多个Mapreduce计算中将不同属性类型的数据聚合成一个数据集合时需要避免复杂性时，从mapper中输出属于多个值类型的数据集合，是非常有用的。偶或者我们需要处理不同的文件书写多个mapper时，每个文件传入的数据类型不同，在进行数据聚合时。然而，Hadoop reduce不允许多个输入值类型。在这种情况下，可以使用Generic

2016-10-18 22:48:26 1929

原创 Hadoop -实现自定义的Key类型

Hadoop MapReduce的key类型的实例应该可以进行互相比较来满足排序的目的。为了在一个MapReduce计算中用作键类型，Hadoop的Writable数据类型应该实现org.apache.hadoop.io.WritableComparable<T>接口。WritableComparable接口继承于org.apache.hadoop.io.Writable接口，并增加了Compare

2016-10-17 22:37:33 2722

原创选择合适的Hadoop数据类型

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-10-17 22:25:19 931

浩先生的博客