cvwarrior_wutu-CSDN博客

原创 HBase优化（二）

3、内存优化HBase操作过程中需要大量的内存开销，毕竟Table是可以缓存在内存中的，但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用状态，一般16~36G内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。合理配置JVM内存1. HBase服务的堆内存设置一般刚部署的HBase集群，默认配置只给Master和RegionServer分配了1G的内存，RegionServer中的MemStore默认占0.4，即40

2022-01-05 18:25:35 1225

原创 HBase优化（一）

1 、预分区1）预分区概述HBase表在刚刚创建时，只有一个分区（region），当一个Region过大时（>10G）时，将会被RegionServer进行Split分裂成两个分区。表在进行Split时，会耗费大量的资源，频繁的分区对HBase的性能有着巨大的影响。每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，就可以提高

2022-01-04 20:46:52 1179

原创 Kafka分区分配策略

在 Kafka内部存在两种默认的分区分配策略：Range和 RoundRobin。

2021-12-30 20:56:53 1023

原创 Kafka常用命令行操作命令

1 Topic相关命令1）查看当前服务器中的所有topicbin/kafka-topics.sh --zookeeper hadoop001:2181/kafka --listbin/kafka-topics.sh --bootstrap-server hadoop001:9092 --list2）创建topicbin/kafka-topics.sh --bootstrap-server hadoop001:9092 --create --replication-factor ...

2021-12-30 20:34:50 186

原创 Flume组成，Put事务，Take事务，拦截器，选择器和监控器

1 Flume组成，Put事务，Take事务1.1 Flume组成一、taildir source（1）特性：支持断点续传、多目录（2）是由哪个flume版本产生的？Apache1.7、CDH1.6（3）没有断点续传功能时怎么做的？使用自定义（4）taildir挂了怎么办？不会丢数：断点续传，但是会造成重复数据：（5）怎么处理重复数据？ ①不处理生产环境通常不处理，因为会影...

2021-12-28 20:38:45 886

原创简述Zookeeper的选举机制（入门向）

Zookeeper作为一个开源的分布式的，为分布式应用提供协调服务的Apache项目。它有一个很重要的特点：半数机制，集群中只要有半数以上节点存活，Zookeeper集群就能正常服务，所以Zookeeper适合安装奇数台服务器（最少3台）。Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。下面我就用一...

2021-12-27 20:09:56 5011 2

原创 Hadoop之MapReduce开发总结

1.输入数据接口：InputFormat （1）默认使用的实现类是：TextInputFormat （2）TextInputFormat的功能逻辑是：一次读一行文本，然后将该行的起始位置偏移量作为key，行内容作为value返回。（3）CombineTextInputFormat可以把多个小文件合并成一个切片处理，提高处理效率。2.逻辑处理接口用户根据业务需求实现其中三个方法：map() 、setup()、cleanup()...

2021-12-24 21:22:43 675 2

cvwarrior_wutu的博客