大数据研发
Summer629629
这个作者很懒,什么都没留下…
展开
-
Hbase入门与使用
Hbase是一个分布式的数据库,它的主要作用为海量数据的存储和海量数据的准实时查询。Hbase的应用十分广泛,在交通、金融、电商、移动等行业均有涉足。Hbase有如下几个特点:容量大列式存储多版本扩展性稀疏性高性能可靠性Hbase的架构体系和设计模型服务架构体系1、hbase的主要进程:master、regionserver2、hbase所依赖的两个外部的服务:zookee...原创 2019-05-06 20:30:55 · 200 阅读 · 0 评论 -
flume性能调优
调优的出发点是因为在项目当中,那多个百兆的文件进行读写测试,发现默认配置在刚开始数据量较小的时候响应速度很快,但是随着数据量的增加,响应速度越来越慢。我们知道,flume-ng agent包括source、channel、sink三个部分,这三部分都运行在JVM上,而JVM运行在linux操作系统之上。因此,对于flume的性能调优,就是对这三部分及影响因素调优。1、source的配置该项目...原创 2019-06-05 19:33:51 · 2961 阅读 · 0 评论 -
flume 与 logstash 的比较
1、flume的介绍flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。flume的一个Agent主要由source、channel、sink三个组件组成。source负责从数据发生器接收数据;channel相当于持久层,用于暂时存储数据;sink负责将数据传送到目的地(hdfs、es等)。flume支持开发者定制,可以自己进行开发。2、logstash的介绍...原创 2019-05-27 19:20:15 · 3199 阅读 · 0 评论 -
kafka搭建和安装
https://blog.csdn.net/m0_37738114/article/details/80405068https://blog.csdn.net/zajbetterme/article/details/84553594转载 2019-05-07 19:36:09 · 2827 阅读 · 2 评论 -
kafka的简单demo实现
搭建Kafka开发环境生产者:kafka.producer.servers=ip+端口用于建立与kafka集群的连接,这个list仅仅影响用于初始化的hosts,来发现全部的servers。格式:host1:port1,host2:port2,…,数量尽量不止一个,以防其中一个down了kafka.producer.retries=0发生错误时,重传次数。当开启重传时,需要将max.i...原创 2019-05-19 15:09:14 · 2399 阅读 · 0 评论 -
hbase过滤器的使用
基于列、单元值的过滤器1、SingleColumnValueFilter(单列值过滤器)单列值过滤器:指定需要进行过滤的列,对该列的单元值进行比较过滤。SingleColumnValueFilter filter = new SingleColumnValueFilter(famliy, column_a, CompareOp.EQUAL,Bytes.toBytes(“value_a”));...原创 2019-05-12 09:32:08 · 725 阅读 · 0 评论 -
flume+Quartz作业调度框架
好吧又是被吐槽写了挫挫的代码的一天,虽然写的代码不太好,但是还是新学习了Quartz作业调度框架的使用,现做个笔记吧~首先介绍下在做项目的需求:使用flume读取日志文件,使用拦截器对日志文件的内容进行信息聚合后存储到es当中。在这个过程中,会存在因意外原因丢失数据的问题,而当部分数据丢失,会引起flume拦截器中有部分多余的信息堆积,长此以往会降低flume的处理速度。针对这个问题,现设计...原创 2019-06-28 16:33:36 · 484 阅读 · 0 评论