自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

敲码的汉子

敲码的汉子你威武雄壮,飞驰的双手像疾风一样

  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 hadoop(八)-hdfs原理及架构设计

HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。一、HDFS体系结构1.1 NamenodeNameno

2018-01-25 16:38:50 3833

原创 hadoop(七)-hadoop参数配置

1. hdfs-site.xmldfs.name.dir NameNode 元数据存放位置 默认值:使用core-site.xml中的hadoop.tmp.dir/dfs/namedfs.block.size 对于新文件切分的大小,单位byte。默认是64M,建议是128M。每一个节点都要指定,包括客户端。 默认值:128Mdfs.data.dir DataNode在本地磁盘存

2018-01-25 16:20:53 4108

原创 hadoop(六)-Java读写hdfs文件

HDFS是存取数据的分布式文件系统,HDFS文件操作常有两种方式,一种是命令行方式,另一种是JavaAPI。 要在java工程中操作hdfs,需要引入一下jar包,我的maven工程中的pom.xml文件中增加如下几个依赖: dependency> groupId>org.apache.hbasegroupId> artifactId>hb

2018-01-25 16:00:50 4584

原创 hadoop(五)-hdfs命令行基本命令

HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme:

2018-01-25 15:55:31 4868

原创 hadoop(二)-hadoop原理及架构

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。1.HDFSHDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性

2018-01-25 15:29:26 4397

原创 Centos7离线安装CDH5.13.1-Hadoop集群

1.软件准备安装之前需要准备以下安装包或者安装必要环境1.jdk1.8 (不要安装openjdk,要安装oracle官网的jdk1.8)2.mysql(这里我使用docker运行,因为docker方便,当然你也可以自己部署mysql)3.Cloudera Manager, http://archive.cloudera.com/cm5/cm/5/ 下载对应操作系统版本的cm,

2018-01-24 11:10:10 5744

原创 hbase(九)-hbase的索引LSM树

说LSM(Log-Structured Merge Tree)之前先说一下B+树,B+树在关系型数据库里面非常常见,oracle、mysql里面的索引算法都是B+树。1.B+树相信大家对B+树已经非常的熟悉,比如Oracle的普通索引就是采用B+树的方式,下面是一个B+树的例子: 根节点和枝节点很简单,分别记录每个叶子节点的最小值,并用一个指针指向叶子节点。 叶子节点里每个键值都指

2018-01-24 10:35:36 3753

原创 hbase(八)-hbase的compact

HBase是基于LSM树存储模型的分布式NoSQL数据库。LSM树对比普遍的B+树来说,能够获得较高随机写性能的同时,也能保持可靠的随机读性能。在进行读请求的时候,LSM树要把多个子树(类似B+树结构)进行归并查询,对于HBase来说,这些子树就是HFile(还包括内存上的树结构MemStore)。因此归并查询的子树数越少,查询的性能就越高。1.Compact的作用当MemStore超

2018-01-24 10:24:23 3754

原创 hbase(七)-region分裂过程

1、RegionServer决定本地的region分裂,并准备分裂工作。第一步是,在zookeeper的/hbase/region-in-reansition/region-name下创建一个znode,并设为SPLITTING状态。2、Master通过父region-in-transition znode的watcher监测到刚刚创建的znode。3、RegionServer在HDFS中父r

2018-01-24 10:23:43 4814

原创 hbase(四)-regionserver相关问题

1.hbase读的过程 1,Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息。 2,根据namespace、表名和rowkey在meta表中找到对应的region信息 3,找到这个region对应的regionserver 4,查找对应的region 5,先从MemSto

2018-01-24 10:05:45 3676

原创 hbase(五)-hbase优化

1. 预先分区默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入数据的时候,所有的 HBase 客户端都向这一个 Region 写数据,直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions,这样当数据写入 HBase 时,会按照 Region 分区情况,在集群内做数据的负载均衡。2.

2018-01-24 09:12:30 3430

原创 hbase(六)-事务并发控制机制原理

作为一款优秀的非内存数据库,HBase和传统数据库一样提供了事务的概念,只是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性,即通常所说的ACID特性。为了实现事务特性,HBase采用了各种并发控制策略,包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁实现的同步机制,再分别详细介绍行锁的实现以及各种读写锁的应用场景,最后重点介绍MVCC机制的实现策略

2018-01-23 21:25:56 3506

原创 hbase(三)-基本的hbase shell命令

HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。 HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等、对region进行相关操作等。在hbase启动之后,在命令里面输入“hbase shell”可以进入hbase shell的操作界面.

2018-01-23 01:03:17 4305

原创 hbase(二)-hbase设计以及原理

一、简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,H

2018-01-23 00:40:52 4731

原创 spark通过hfile向hbase导入数据

hbase的put api是通过hbase的regionserver向hbase插入数据,虽然这种方式插入速度极快,但是在插入过程中region会不断的split和compact,split和compact都会占用大量的计算资源和io,同时这一过程中也会短暂的中断服务。 hbase的数据文件是保存在region的hfile上,通过直接写入数据到hfile,并将hfile保存到hbase中,这种方

2018-01-17 19:33:19 5105

原创 spark读写hbase数据

如果原始数据在hbase中,这时想用spark对hbase数据做一些批量计算,就可以用spark的api直接读写hbase数据读取hbase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.a

2018-01-17 19:10:16 4272

原创 hive对接hbase(一)-配置和使用例子

1.配置配置hive-site.xml,除了增加hive-hbase-handler-xxx.jar之外,在需要进行一些mapreduce计算的时候计算节点还需要hbase的jar来访问hbase,还要增加其它hbase访问的jar。property> name>hive.aux.jars.pathname> value>file:/opt/hive/lib/hive-hb

2018-01-17 14:12:01 4553

原创 hive对接phoenix

1.配置解压phoenix程序包,拷贝phoenix-xx-HBase-xx-hive.jar到hive的lib中 并配置hive-site.xml,增加phoenix-xx-HBase-xx-hive.japroperty> name>hive.aux.jars.pathname> value>$HIVE_HOME/lib/phoenix-xx-HBase-xx-hiv

2018-01-17 09:42:18 8126 11

原创 hive源代码开发(一)--开发调试环境搭建

需要阅读hive源代码了解hive运行原理 修改hive部分代码来达到业务需求 可以将hive源代码下载下来进行编译运行,在本地进行调试。1.环境准备开发需要在linux环境下 可以在本机上装一个ubuntu操作系统或者一个虚拟机都可以。有条件的同学可以在macbook上开发也可以linux版本的eclipse2.开发环境hive2.3jdk 1.7mav

2018-01-15 15:43:03 7004 1

原创 hadoop(四)-hadoop的 inputformat、outputformat、recordreader、recordwriter

InputFormat和RecordReaderHadoop提出了InputFormat的概念 org.apache.hadoop.mapreduce包里的InputFormat抽象类提供了如下列代码所示的两个方法public abstract class InputFormatK, V> { public abstract List getSplits(JobContext

2018-01-03 14:04:58 3586

多端口转发工具

多端口转发工具

2014-12-05

用命令行隐藏文件的简单方法

用命令行隐藏文件的简单方法 无需第三方软件

2012-05-04

计算器java源码

计算器java源码 模拟计算器的java编程 比较乱 新手

2012-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除