自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 HBase读写原理

HBase读操作:客户端从zookeeper以及-root-表和.Meta表找到数据所在的位置regionserver(也就是数据所在region的主机地址)regionserver进行查询数据,当regionserver查询到数据所在的region时,就会发送查询命令,region就先在memstore中找,找到就返回,如果没有,就会去storefile中找。HBase写操作:.先client根据Rowkey找到对应的region所在的regionserver,客户端就会.

2020-06-11 10:35:56 212

原创 HBase寻址方式

寻址机制-ROOT-表:其位置存储在 ZooKeeper 中,此表存储.META.的位置信息,并且-ROOT不会分裂,只有一个 Region。而.META.表可以被切分成多个 Region。.META.表:存储表数据 region 的位置信息,每张表每个 Region 的起始 RowKey。两个版本,HBase-0.96 之前和 HBase-0.96 之后 HBase-0.96 之前:1. Client 请求 ZooKeeper 获得-ROOT-所在的 RegionServer...

2020-06-11 10:18:05 318

原创 hbase架构

HRegionServer:集群节点,存储多个不同表的 region。HRegion:是 hbase 中对表进行切割的单元,由 regionserver 负责管理。HRegion 按大小分割的(默认 10G),每个表一开始只有一个 HRegion,随着数据不断插入 表, HRegion 不断增大,当增大到一个阀值的时候, HRegion 就会等分会两个新的 HRegion。 当表中的行不断增多,就会有越来越多的 HRegion。 HRegion 虽然是负载均衡的最小单元,但并不是物理存储...

2020-06-10 11:58:18 152

原创 HBase简介

HBase 是 BigTable 的开源(源码使用 Java 编写)版本。是 Apache Hadoop 的数据库,是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。HBase 依赖于 HDFS 做底层的数据存储,BigTable 依赖 Google GFS 做数据存储 HBase 依赖于 MapReduce 做数据计算,BigTable 依赖 Google MapReduce 做数据计算 H..

2020-06-10 11:54:34 121

原创 hive中函数

常使用过哪些系统函数avg max min sum count distinctdate_format函数(根据格式整理日期)date_add函数(加减日期)date_sub加减日期 date_diff计算日期之间相差的天数next_day函数(当前天的下周一、二。。。日)last_day函数(求当月最后一天日期)concat:任何一个参数为null ,则返回值为 null,语法:concat (str1,str2,…)concat_ws:可以指定参数之间的分隔符第一个参数申明。

2020-06-10 11:49:28 348

原创 hive中的分区和分桶-----内部表和外部表的区别

1.内部表和外部表内部表:不需要关键字声明,删除表元数据和真实数据都会删除。内部表可以直接修改。外部表:需要external关键字声明,删除表只会删除元数据而不会删除hdfs中的真实数据。外部表修改需要修复:MSCK REPAIR TABLE table_name;一般都是外部表,内部表是自己使用的中间表时创建。2. 分区和分桶的区别分区针对的是数据存储路径,分桶针对的是数据文件。分区使用的是表外字段,需要指定字段类型;分桶使用的是表内字段,已经知道字段类型,不需要再...

2020-06-10 11:47:10 265

原创 hive中优化

1)Fetch 抓取是指:Hive 中对某些情况的查询可以不必使用 MapReduce 计算。hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走 mapreduce。2)本地模式:设置hive.exec.mode.local.auto 的值为 true3)开启MapJoin:set hive.auto.convert.join = true默认为true

2020-06-10 11:42:33 90

原创 hadoop工作经验

1.Lzo的压缩:Hadoop默认不支持LZO压缩,如果需要支持LZO压缩,需要添加jar包,并在hadoop的cores-site.xml文件中添加相关压缩配置。2.hadoop参数设置:1)在hdfs-site.xml文件中配置多目录,最好提前配置好,否则更改目录需要重新启动集群2)NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.handler.count=20 * log2(Cluster Size),比

2020-06-10 11:39:14 215

原创 yarn执行流程

yarn执行流程1、Client 向 RM 提交 job 对象申请运行应用程序2、RM 返回一个运行资源提交地址3、client 向地址提交切片信息 split,配置文件 xml 和 jar 包等运行资源4、应答 RM 资源提交完成,并申请运行 appmaster 程序5、RM 吧 appmaster 放在任务队列里等待空间的 NM 领取任务执行6、NM 领取任务后创建运行任务的 container 容器虚拟化 cpu 和内存并启动 APPmaster7、NM ...

2020-06-10 11:25:00 311

原创 hadoop对小文件问题

小文件的影响:(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务小文件的优化:对小文件进行归档和压缩,(对外是整体,对内是一个一个文件)(小文件主要减少namenode存储空间(默认是150字节))。减少jvm的重用(小文件在处理时需要不停开关jvm,这样都在开关时间比运行时间还长一直开启,所以开启jvm的重用),还有小文件处理时还用conbinfileinputformat,这个作用是为了将多个

2020-06-10 10:46:08 121

原创 mapreduce的shuffle及优化

shuffle流程map方法之后,reduce方法之前过程 shffule的过程:从map方法出来先到分区方法,然后进入缓冲环形区,进来之后进行分区和排序(左侧写数据,右侧写索引),环形缓冲是大小100M,达到80%时,就会溢写,溢写之前要对数据进行排序,排序的方法快排,要对key索引进行快排,按照字典顺序进行排序。排完序的数据进行溢写,对溢写的文件要进行归并排序,排完序之后把对应的数据放入相应的分区,等待reduce端拉去数据,reduce拉去的数据先放入内存当中,内存不足溢写到磁盘,不管内存还磁盘

2020-06-10 10:42:14 219

原创 hadoop读写流程以及四种机制

hadoop读流程读流程:客户端通过 Distributed FileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址。 挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据。 DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)。 客户端以 Packet(64k)为单位接收,先在本地缓存,然后写入目标文件。...

2020-06-10 10:33:26 1012

原创 hive的环境部署

2.1.1、内嵌 Derby 版本1、 上传安装包 apache-hive-2.3.3-bin.tar.gz2、 解压安装包 tar -zxvf apache-hive-2.3.3-bin.tar.gz -C /home/hadoop/apps/3、 进入到 bin 目录,运行 hive 脚本:[hadoop@hadoop02 bin]$ ./hive注意: 1...

2019-09-17 21:32:18 222

原创 hive的数据存储

1、hive的存储结构包括数据库、表、视图、分区和表数据等。(其中数据库,表,分区等都对应hdfs上的一个目录,表数据对应hdfs对应目录下的文件)2、hive中所有的数据都存储在hdfs中,没有专门的数据存储格式,因为hive是读模式 可支持TextFile,SequenceFile,RCFIle或者自定义格式等3、只需要在创建表的时候告诉hive数据中的列分隔符和行分隔符,hive就可...

2019-09-17 19:43:50 2585

原创 hive的架构

基本组成 一、用户接口 CLI,Shell 终端命令行(Command Line Interface),采用交互形式使用 Hive 命令行与 Hive 进行交互,最常用(学习,调试,生产) JDBC/ODBC,是 Hive 的基于 JDBC 操作提供的客户端,用户(开发员,运维人员)通过 这连接至 Hive server 服务 Web UI,通过浏览器访问 Hive二、Thrif...

2019-09-17 19:29:32 100

原创 hive与关系型数据库以及HBase之间的比较

1.2、hive和rdbms的对比对比项 hive rdbms 查询语言 HQL sqL 数据存储 HDFS raw Device or Local FS 执行器 MapReduce Executor 数据插入 支持批量导入/单条插入 支持单条或批量导入 数据操作 覆盖追加 行级更新...

2019-09-17 16:12:23 352

原创 hive的简介

1.hive的概念①hive有facebook实现并开源②hive是基于hadoop的一个数据仓库工具③hive存储的数据其实底层存储在hdfs上④hive将hdfs上的结构化的数据映射为一张数据库表⑤hive提供HQL(hive sql)查询功能⑥ hive的本质是将sql语句装换为mapreduce任务运行,使不熟悉mapreduce的用户很方便地利用hql处理和计...

2019-09-17 15:27:56 119

原创 hadoop介绍以及hdfs总结

1、Hadoop 是 Apache 旗下的一套开源软件平台2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.Hadoop 的核心组件有A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPCB.HDFS(Hadoop Distributed File System 分布式文件系统)C.YARN(Yet A...

2019-08-07 22:12:28 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除