- 博客(7)
- 收藏
- 关注
原创 HBase优化(二)
3、内存优化HBase操作过程中需要大量的内存开销,毕竟Table是可以缓存在内存中的,但是不建议分配非常大的堆内存,因为GC过程持续太久会导致RegionServer处于长期不可用状态,一般16~36G内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。合理配置JVM内存1. HBase服务的堆内存设置一般刚部署的HBase集群,默认配置只给Master和RegionServer分配了1G的内存,RegionServer中的MemStore默认占0.4,即40
2022-01-05 18:25:35 1225
原创 HBase优化(一)
1 、预分区1)预分区概述HBase表在刚刚创建时,只有一个分区(region),当一个Region过大时(>10G)时,将会被RegionServer进行Split分裂成两个分区。表在进行Split时,会耗费大量的资源,频繁的分区对HBase的性能有着巨大的影响。每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,就可以提高
2022-01-04 20:46:52 1179
原创 Kafka常用命令行操作命令
1 Topic相关命令1)查看当前服务器中的所有topicbin/kafka-topics.sh --zookeeper hadoop001:2181/kafka --listbin/kafka-topics.sh --bootstrap-server hadoop001:9092 --list2)创建topicbin/kafka-topics.sh --bootstrap-server hadoop001:9092 --create --replication-factor ...
2021-12-30 20:34:50 186
原创 Flume组成,Put事务,Take事务,拦截器,选择器和监控器
1 Flume组成,Put事务,Take事务1.1 Flume组成一、taildir source(1)特性:支持断点续传、多目录(2)是由哪个flume版本产生的?Apache1.7、CDH1.6(3)没有断点续传功能时怎么做的? 使用自定义(4)taildir挂了怎么办?不会丢数:断点续传,但是会造成重复数据:(5)怎么处理重复数据? ①不处理生产环境通常不处理,因为会影...
2021-12-28 20:38:45 886
原创 简述Zookeeper的选举机制(入门向)
Zookeeper作为一个开源的分布式的,为分布式应用提供协调服务的Apache项目。它有一个很重要的特点:半数机制,集群中只要有半数以上节点存活,Zookeeper集群就能正常服务,所以Zookeeper适合安装奇数台服务器(最少3台)。Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。下面我就用一...
2021-12-27 20:09:56 5011 2
原创 Hadoop之MapReduce开发总结
1.输入数据接口:InputFormat (1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始位置偏移量作为key,行内容作为value返回。 (3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。2.逻辑处理接口 用户根据业务需求实现其中三个方法:map() 、setup()、cleanup()...
2021-12-24 21:22:43 675 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人