HBase
文章平均质量分 86
记录日常学习Hbase过程中的知识点以及遇到的问题
努力转行的任同学...
好好规划自己的路,不要跟着感觉走......
展开
-
解决Hbase报错:ERROR: Can‘t get master address from ZooKeeper; znode data == null
此报错呢,可能是因为zookeeper集群不稳定导致,zookeeper集群和目前的跑数据脚本的集群不一致,我询问了一下,zookeeper是公司内部的物理机集群,跑数据脚本的集群是阿里云集群,哦,我的天呀,什么情况啊…,后面问了问,哦,XXXX历史原因。排查一圈了,对了好几遍,没发现问题,最后注意到了这个:2181 ,得了查了下zk集群的防火墙,果然没开这个端口,申请打开以后,问题处理完毕。报错了:这啥公司啊,怎么给的文档怎么错这么多,起一服务,集群里总有几个组件报错。原创 2023-12-13 15:57:25 · 1879 阅读 · 0 评论 -
已解决:java.net.ConnectException: Call From XXXXX to XXXXX :8020 failed on connection Exception: 拒绝连接;
最近在忙着做一些日志监控类的项目,Flume做的,主要是针对几个业务数据库,监控一下运行日志,为啥?咱也不敢问,咱也不敢问、整个业务集群呢是在阿里云上搭建的,十几台服务器,在跑flume脚本的时候,发现了一个很奇怪的现象,正常的跑flume的测试脚本,采用logger sink呢,是OK的,但是使用HDFS sink呢,就挂壁了,我又让同事试了下 Kafka sink,OK的,搞郁闷了,一直折腾这玩意。原创 2023-12-09 19:45:34 · 1046 阅读 · 0 评论 -
非关系型分布式数据库系统HBase——(协处理器,RowKey设计,二级索引)
1. 访问HBase的方式是使用scan或get获取数据,在获取到的数据上进行业务运算。但是在数据量非常大的时候,比如一个有上亿行及十万个列的数据集,再按常用的方式移动获取数据就会遇到性能问题。客户端也需要有强大的计算能力以及足够的内存来处理这么多的数据。2. 针对上述场景可以使用Coprocessor(协处理器)。将业务运算代码封装到Coprocessor中并在RegionServer上运行,即在数据实际存储位置执行,最后将运算结果返回到客户端。利用协处理器,用户可以编写运行在 HBase Server原创 2021-09-06 22:20:38 · 160 阅读 · 0 评论 -
非关系型分布式数据库系统HBase——(读写数据,flush及compact,拆分机制,预分区,Region合并)
但是这个阈值并不像ConstantSizeRegionSplitPolicy是一个固定的值,而是会在一定条件下不断调整,调整规则和region所属表在当前regionserver上的region个数有关系.与冷合并不同的是,online_merge的传参是Region的hash值,而Region的hash值就是Region名称的最后那段在两个.之间的字符串部分。HregionServer的全局memstore的大小,超过该大小会触发flush到磁盘的操作,默认是堆大小的40%把分区规则创建于文件中执行。原创 2021-09-02 22:41:59 · 312 阅读 · 0 评论 -
非关系型分布式数据库系统——HBase
HBase是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。HBase适合海量明细数据的存储,并且后期需要有很好的查询性能(单表超千万、上亿,且并发要求高)Habse是列式存储,Mysql是行式存储,在Mysql这类关系型数据库中,空值字段会浪费存储空间,但是Habse使用列式存储,可以减少存储空间占用,并且Habase支持多列HBase的特点海量存储: 底层基于HDFS存储海量数据列式存储:HBase表的数据是基于列族进行存储的,一个列族包含若干列极易扩展。原创 2021-08-29 22:51:33 · 1217 阅读 · 0 评论