大数据
文章平均质量分 81
LonelysWorld
专注大数据 Spark , Flink 等 技术;励志成为大数据架构师。
展开
-
Spark Kudu 结合
Kudu的背景Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构,Hbase:实现快速插入和修改,对大量的小规模查询也很迅速HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。HDFS/Parquet + Hbase:这种混合架构需要每隔一段时间将数据从hbase导出成Parquet文原创 2017-05-24 17:27:05 · 14513 阅读 · 0 评论 -
Splunk安装和使用
SplunkSplunk概念 Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据 。从一个位置 搜索并分析所有实时和历史数据。 使用 Splunking 处理计算机数据,可让您在几分钟内(而不是几个小时或几天)解决问题和调查安全事件。监视您的端对端基础结构,避免服务性能降低或中断。原创 2017-03-30 20:58:19 · 29419 阅读 · 1 评论 -
SparkStreaming的log4j日志记录
博客前言为什么我们要写日志 基本上每个程序都要有日志记录的功能,日志的记录最重要的用处就是监控程序的运行状态和错误查找。如果程序没有写日志,那程序就像瞎子一样,瞎跑,你都不知道为什么数据不对,为什么程序报错,程序运行成功还是失败。在流式计算Sparkstreaming中,日志的记录是非常重要的;因为流式计算是需要7*24小时一直运行的,你不记日志你根本不知道程序运行成功还是错误(当然你可以通过s原创 2017-02-24 12:03:10 · 7934 阅读 · 26 评论 -
Kafka-manager 安装
Kafka-manager的安装git源码地址: https://github.com/yahoo/kafka-manager/tree/master 参考博客:https://blog.csdn.net/isea533/article/details/73727485 环境准备: – java 8 – kafka-manager – sbt 步骤: - 1:下载源码编译...原创 2018-06-20 09:19:05 · 445 阅读 · 0 评论