2018年01月_码太狼

原创 hadoop（八）-hdfs原理及架构设计

HDFS 是一个能够面向大规模数据使用的，可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。一、HDFS体系结构1.1 NamenodeNameno

2018-01-25 16:38:50 3833

原创 hadoop（七）-hadoop参数配置

1. hdfs-site.xmldfs.name.dir NameNode 元数据存放位置默认值：使用core-site.xml中的hadoop.tmp.dir/dfs/namedfs.block.size 对于新文件切分的大小，单位byte。默认是64M,建议是128M。每一个节点都要指定，包括客户端。默认值：128Mdfs.data.dir DataNode在本地磁盘存

2018-01-25 16:20:53 4108

原创 hadoop（六）-Java读写hdfs文件

HDFS是存取数据的分布式文件系统，HDFS文件操作常有两种方式，一种是命令行方式，另一种是JavaAPI。要在java工程中操作hdfs，需要引入一下jar包，我的maven工程中的pom.xml文件中增加如下几个依赖： dependency> groupId>org.apache.hbasegroupId> artifactId>hb

2018-01-25 16:00:50 4584

原创 hadoop（五）-hdfs命令行基本命令

HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作，如ls、mkdir、rm等。调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme:

2018-01-25 15:55:31 4868

原创 hadoop（二）-hadoop原理及架构

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。1.HDFSHDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大型主机处理性

2018-01-25 15:29:26 4397

原创 Centos7离线安装CDH5.13.1-Hadoop集群

1.软件准备安装之前需要准备以下安装包或者安装必要环境1.jdk1.8 （不要安装openjdk，要安装oracle官网的jdk1.8）2.mysql（这里我使用docker运行，因为docker方便，当然你也可以自己部署mysql）3.Cloudera Manager， http://archive.cloudera.com/cm5/cm/5/ 下载对应操作系统版本的cm，

2018-01-24 11:10:10 5744

原创 hbase（九）-hbase的索引LSM树

说LSM（Log-Structured Merge Tree）之前先说一下B+树，B+树在关系型数据库里面非常常见，oracle、mysql里面的索引算法都是B+树。1.B+树相信大家对B+树已经非常的熟悉，比如Oracle的普通索引就是采用B+树的方式，下面是一个B+树的例子：根节点和枝节点很简单，分别记录每个叶子节点的最小值，并用一个指针指向叶子节点。叶子节点里每个键值都指

2018-01-24 10:35:36 3753

原创 hbase（八）-hbase的compact

HBase是基于LSM树存储模型的分布式NoSQL数据库。LSM树对比普遍的B+树来说，能够获得较高随机写性能的同时，也能保持可靠的随机读性能。在进行读请求的时候，LSM树要把多个子树（类似B+树结构）进行归并查询，对于HBase来说，这些子树就是HFile（还包括内存上的树结构MemStore）。因此归并查询的子树数越少，查询的性能就越高。1.Compact的作用当MemStore超

2018-01-24 10:24:23 3754

原创 hbase（七）-region分裂过程

1、RegionServer决定本地的region分裂，并准备分裂工作。第一步是，在zookeeper的/hbase/region-in-reansition/region-name下创建一个znode，并设为SPLITTING状态。2、Master通过父region-in-transition znode的watcher监测到刚刚创建的znode。3、RegionServer在HDFS中父r

2018-01-24 10:23:43 4814

原创 hbase（四）-regionserver相关问题

1.hbase读的过程 1,Client先访问zookeeper，从meta表读取region的位置，然后读取meta表中的数据。meta中又存储了用户表的region信息。 2,根据namespace、表名和rowkey在meta表中找到对应的region信息 3,找到这个region对应的regionserver 4,查找对应的region 5,先从MemSto

2018-01-24 10:05:45 3676

原创 hbase（五）-hbase优化

1. 预先分区默认情况下，在创建 HBase 表的时候会自动创建一个 Region 分区，当导入数据的时候，所有的 HBase 客户端都向这一个 Region 写数据，直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions，这样当数据写入 HBase 时，会按照 Region 分区情况，在集群内做数据的负载均衡。2.

2018-01-24 09:12:30 3430

作为一款优秀的非内存数据库，HBase和传统数据库一样提供了事务的概念，只是HBase的事务是行级事务，可以保证行级数据的原子性、一致性、隔离性以及持久性，即通常所说的ACID特性。为了实现事务特性，HBase采用了各种并发控制策略，包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁实现的同步机制，再分别详细介绍行锁的实现以及各种读写锁的应用场景，最后重点介绍MVCC机制的实现策略

2018-01-23 21:25:56 3506

原创 hbase（三）-基本的hbase shell命令

HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。 HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等、对region进行相关操作等。在hbase启动之后，在命令里面输入“hbase shell”可以进入hbase shell的操作界面.

2018-01-23 01:03:17 4305

原创 hbase（二）-hbase设计以及原理

一、简介HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世之初，就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲，HBase不折不扣是一个数据库，与我们熟悉的Oracle、MySQL、MSSQL等一样，对外提供数据的存储和读取服务。而从应用的角度来说，HBase与一般的数据库又有所区别，H

2018-01-23 00:40:52 4731

原创 spark通过hfile向hbase导入数据

hbase的put api是通过hbase的regionserver向hbase插入数据，虽然这种方式插入速度极快，但是在插入过程中region会不断的split和compact，split和compact都会占用大量的计算资源和io，同时这一过程中也会短暂的中断服务。 hbase的数据文件是保存在region的hfile上，通过直接写入数据到hfile，并将hfile保存到hbase中，这种方

2018-01-17 19:33:19 5105

原创 spark读写hbase数据

如果原始数据在hbase中，这时想用spark对hbase数据做一些批量计算，就可以用spark的api直接读写hbase数据读取hbase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.a

2018-01-17 19:10:16 4272

原创 hive对接hbase（一）-配置和使用例子

1.配置配置hive-site.xml,除了增加hive-hbase-handler-xxx.jar之外，在需要进行一些mapreduce计算的时候计算节点还需要hbase的jar来访问hbase，还要增加其它hbase访问的jar。property> name>hive.aux.jars.pathname> value>file:/opt/hive/lib/hive-hb

2018-01-17 14:12:01 4553

原创 hive对接phoenix

1.配置解压phoenix程序包，拷贝phoenix-xx-HBase-xx-hive.jar到hive的lib中并配置hive-site.xml,增加phoenix-xx-HBase-xx-hive.japroperty> name>hive.aux.jars.pathname> value>$HIVE_HOME/lib/phoenix-xx-HBase-xx-hiv

2018-01-17 09:42:18 8126 11

原创 hive源代码开发(一)--开发调试环境搭建

需要阅读hive源代码了解hive运行原理修改hive部分代码来达到业务需求可以将hive源代码下载下来进行编译运行，在本地进行调试。1.环境准备开发需要在linux环境下可以在本机上装一个ubuntu操作系统或者一个虚拟机都可以。有条件的同学可以在macbook上开发也可以linux版本的eclipse2.开发环境hive2.3jdk 1.7mav

2018-01-15 15:43:03 7004 1

原创 hadoop（四）-hadoop的 inputformat、outputformat、recordreader、recordwriter

InputFormat和RecordReaderHadoop提出了InputFormat的概念 org.apache.hadoop.mapreduce包里的InputFormat抽象类提供了如下列代码所示的两个方法public abstract class InputFormatK, V> { public abstract List getSplits(JobContext

2018-01-03 14:04:58 3586

敲码的汉子