weixin_42130191-CSDN博客

原创 HBase读写原理

HBase读操作：客户端从zookeeper以及-root-表和.Meta表找到数据所在的位置regionserver(也就是数据所在region的主机地址)regionserver进行查询数据，当regionserver查询到数据所在的region时，就会发送查询命令，region就先在memstore中找，找到就返回，如果没有，就会去storefile中找。HBase写操作：.先client根据Rowkey找到对应的region所在的regionserver，客户端就会.

2020-06-11 10:35:56 212

原创 HBase寻址方式

寻址机制-ROOT-表：其位置存储在 ZooKeeper 中，此表存储.META.的位置信息，并且-ROOT不会分裂，只有一个 Region。而.META.表可以被切分成多个 Region。.META.表：存储表数据 region 的位置信息，每张表每个 Region 的起始 RowKey。两个版本，HBase-0.96 之前和 HBase-0.96 之后 HBase-0.96 之前：1. Client 请求 ZooKeeper 获得-ROOT-所在的 RegionServer...

2020-06-11 10:18:05 318

原创 hbase架构

HRegionServer：集群节点，存储多个不同表的 region。HRegion：是 hbase 中对表进行切割的单元，由 regionserver 负责管理。HRegion 按大小分割的(默认 10G)，每个表一开始只有一个 HRegion，随着数据不断插入表， HRegion 不断增大，当增大到一个阀值的时候， HRegion 就会等分会两个新的 HRegion。当表中的行不断增多，就会有越来越多的 HRegion。 HRegion 虽然是负载均衡的最小单元，但并不是物理存储...

2020-06-10 11:58:18 152

原创 HBase简介

HBase 是 BigTable 的开源（源码使用 Java 编写）版本。是 Apache Hadoop 的数据库，是建立在 HDFS 之上，被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统，实现对大型数据的实时、随机的读写访问。HBase 依赖于 HDFS 做底层的数据存储，BigTable 依赖 Google GFS 做数据存储 HBase 依赖于 MapReduce 做数据计算，BigTable 依赖 Google MapReduce 做数据计算 H..

2020-06-10 11:54:34 121

原创 hive中函数

常使用过哪些系统函数avg max min sum count distinctdate_format函数（根据格式整理日期）date_add函数（加减日期）date_sub加减日期 date_diff计算日期之间相差的天数next_day函数（当前天的下周一、二。。。日）last_day函数（求当月最后一天日期）concat：任何一个参数为null ，则返回值为 null，语法：concat (str1,str2,…)concat_ws：可以指定参数之间的分隔符第一个参数申明。

2020-06-10 11:49:28 348

原创 hive中的分区和分桶-----内部表和外部表的区别

1.内部表和外部表内部表：不需要关键字声明，删除表元数据和真实数据都会删除。内部表可以直接修改。外部表：需要external关键字声明，删除表只会删除元数据而不会删除hdfs中的真实数据。外部表修改需要修复：MSCK REPAIR TABLE table_name;一般都是外部表，内部表是自己使用的中间表时创建。2. 分区和分桶的区别分区针对的是数据存储路径，分桶针对的是数据文件。分区使用的是表外字段，需要指定字段类型；分桶使用的是表内字段，已经知道字段类型，不需要再...

2020-06-10 11:47:10 265

原创 hive中优化

1）Fetch 抓取是指：Hive 中对某些情况的查询可以不必使用 MapReduce 计算。hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走 mapreduce。2）本地模式：设置hive.exec.mode.local.auto 的值为 true3）开启MapJoin：set hive.auto.convert.join = true默认为true

2020-06-10 11:42:33 90

原创 hadoop工作经验

1.Lzo的压缩：Hadoop默认不支持LZO压缩，如果需要支持LZO压缩，需要添加jar包，并在hadoop的cores-site.xml文件中添加相关压缩配置。2.hadoop参数设置：1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.handler.count=20 * log2(Cluster Size)，比

2020-06-10 11:39:14 215

原创 yarn执行流程

yarn执行流程1、Client 向 RM 提交 job 对象申请运行应用程序2、RM 返回一个运行资源提交地址3、client 向地址提交切片信息 split，配置文件 xml 和 jar 包等运行资源4、应答 RM 资源提交完成，并申请运行 appmaster 程序5、RM 吧 appmaster 放在任务队列里等待空间的 NM 领取任务执行6、NM 领取任务后创建运行任务的 container 容器虚拟化 cpu 和内存并启动 APPmaster7、NM ...

2020-06-10 11:25:00 311

原创 hadoop对小文件问题

小文件的影响：（1）影响NameNode的寿命，因为文件元数据存储在NameNode的内存中（2）影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务小文件的优化：对小文件进行归档和压缩，（对外是整体，对内是一个一个文件）（小文件主要减少namenode存储空间（默认是150字节））。减少jvm的重用（小文件在处理时需要不停开关jvm,这样都在开关时间比运行时间还长一直开启，所以开启jvm的重用），还有小文件处理时还用conbinfileinputformat,这个作用是为了将多个

2020-06-10 10:46:08 121

原创 mapreduce的shuffle及优化

shuffle流程map方法之后，reduce方法之前过程 shffule的过程：从map方法出来先到分区方法，然后进入缓冲环形区，进来之后进行分区和排序（左侧写数据，右侧写索引），环形缓冲是大小100M，达到80%时，就会溢写，溢写之前要对数据进行排序，排序的方法快排，要对key索引进行快排，按照字典顺序进行排序。排完序的数据进行溢写，对溢写的文件要进行归并排序，排完序之后把对应的数据放入相应的分区，等待reduce端拉去数据，reduce拉去的数据先放入内存当中，内存不足溢写到磁盘，不管内存还磁盘

2020-06-10 10:42:14 219

weixin_42130191的博客

原创 HBase读写原理

原创 HBase寻址方式

原创 hbase架构

原创 HBase简介

原创 hive中函数

原创 hive中的分区和分桶-----内部表和外部表的区别

原创 hive中优化

原创 hadoop工作经验

原创 yarn执行流程

原创 hadoop对小文件问题

原创 mapreduce的shuffle及优化

原创 hadoop读写流程以及四种机制

原创 hive的环境部署

原创 hive的数据存储

原创 hive的架构

原创 hive与关系型数据库以及HBase之间的比较

原创 hive的简介

原创 hadoop介绍以及hdfs总结

空空如也

空空如也