- 博客(12)
- 收藏
- 关注
原创 HBase的shell命令使用以及JavaAPI操作(过滤器实现)
4. HBase shell 命令4.1 进入HBase客户端命令操作界面进入HBase的shell客户端cd /kkb/install/hbase-1.2.0-cdh5.14.2/bin/hbase shell4.2 help 帮助命令HBase(main):001:0> help# 查看具体命令的帮助信息HBase(main):001:0> help 'create'4.3 list 查看有哪些表查看当前数据库中有哪些表HBase(main):002:0>
2021-02-21 17:48:43 1034
原创 HBase是个啥子?
1.1 HBase的是个啥子?是建立的HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用HBase。1.2 HBase的特点海量存储可以存储大批量的数据列式存储HBase表的数据是基于列族进行存储的,列族是在列的方向上的划分。极易扩展底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datanode节点就可以了可以通过增加服务器来对集群的存储进行扩容高并发支持高并发的读写请求
2021-02-21 17:39:53 243
原创 hive调优
hive的调优(结合实际情况测试!一定要测试!)1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算例如:select * from score;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台在hive-default.xml.template文件中 hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查
2021-02-10 16:07:14 185
原创 hive执行sql提交mapreduce任务无法加载队列
hive执行sql提交mapreduce任务无法加载队列拒绝原因:YARN : Error assigning app to queue default将应用程序分配到默认队列值时出错Job Submission failed with exception ‘java.io.IOException(org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1612322768362_0044 to YAR
2021-02-06 09:51:43 980
原创 hadoop框架调优方向
1. hdfs调优以及yarn参数调优方向实践出真知,大胆淦!1. HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size)调整namenode处理客户端的线程数比如集群规模为8台时,此参数设置为60The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerp
2021-01-30 17:10:09 143
原创 MapTask Reduce Task工作机制简述
14. map task工作机制(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用P
2021-01-29 10:21:14 312
原创 mapreduce的InputForma常用类
mapreduce的InputFormat1. InputFormat详解InputFormat是mapreduce当中用于处理数据输入的一个组件,是最顶级的一个抽象父类,主要用于解决各个地方的数据源的数据输入问题。2. FileInputFormat常用类FileInputFormat类也是InputFormat的一个子类,通过FileInputFormat类来实现操作hdfs上面的文件。我们可以通过FileInputFormat来实现各种格式的文件操作,FileInputFormat的
2021-01-23 10:47:59 155
原创 hadoop的序列化和反序列化
hadoop的序列化和反序列化Java 的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系…),不便于在网络中高效传输;所以要用hadoop 的序列化机制(Writable),精简,高效。不用像 java 对象类一样传输多层的父子关系,需要哪个属性就传输哪个属性值,大大的减少网络传输的开销。Writable是Hadoop的序列化格式,hadoop定义了这样一个Writable接口。 一个类要支持可序列化只需实
2021-01-13 18:53:43 269 1
原创 HDFS小文件治理
hdfs的小文件治理1. 有没有问题· NameNode存储着文件系统的元数据,每个文件、目录、块大概有150字节的元数据;· 因此文件数量的限制也由NN内存大小决定,如果小文件过多则会造成NN的压力过大· 且HDFS能存储的数据总量也会变小2. HAR文件方案· 本质启动mr程序,所以需要启动yarn用法:archive -archiveName <NAME>.har -p <parent path> [-r <replication.
2021-01-05 18:40:02 406 1
原创 HDFS-datanode工作机制以及数据存储
datanode工作机制以及数据存储HDFS分布式文件系统也是一个主从架构,主节点是我们的namenode,负责管理整个集群以及维护集群的元数据信息从节点datanode,主要负责文件数据存储1. datanode工作机制1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向namenode注册,通过后,周期性(6小时)的向namenode上报所有的块信息。3)
2021-01-04 19:06:00 1735
原创 HDFS读写流程及容错
1. hdfs的写入流程及容错文件上传流程如下:创建文件:①HDFS client向HDFS写入数据,先调用DistributedFileSystem.create()②RPC调用namenode的create(),会在HDFS目录树中指定的路径,添加新文件;并将操作记录在edits.log中namenode.create()方法执行完后,返回一个FSDataOutputStream,它是DFSOutputStream的包装类建立数据流管道pipeline③client调用DFSOu
2021-01-03 18:16:10 914
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人