自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 spark streaming 广播变量空指针异常问题&广播变量更新

这两天在使用spark中的用到了广播变量,大致逻辑是从Redis中读取黑名单配置,然后广播到各个节点用于异常监控,但是在使用过程中总是报空指针异常,后面百度了很多资料,发现有说Yarn集群中不支持广播变量的,有说Sparkstreaming不支持广播变量更新的,有说是spark闭包问题的等等各种,...

2019-12-25 14:32:30

阅读数 70

评论数 0

原创 spark streaming任务触发执行时间

相信有不少小伙伴在使用spark streaming做微批次处理的时候有过疑问,就是我设置了Duration然后启动任务,那么我的批次任务每次会在啥时候启动呢?相信对于Duration设置比较小的同学来说并不会关心在什么时候执行,但是对于Duration设置比较大或者对数据延时、资源敏感的同学来说...

2019-12-02 15:05:02

阅读数 24

评论数 0

原创 Kafka是如何实现Broker级别均衡以及磁盘级别均衡的

笔者最近在使用Kafka进行日志收集时,发现kafka集群中,各个磁盘的利用率相差比较大,带着疑问,笔者展开了对kafka是如何实现broker均衡以及单个broker上不同磁盘目录(rack)的数据均衡的探索,现将本次探索总结分享如下 起因 笔者在前端时间对Kafka集群中的每个broker进行...

2019-10-22 17:33:01

阅读数 38

评论数 0

原创 Flume日志长度2048超长问题解决

最近笔者在使用Flume-1.7进行日志收集的时候,遇到了日志长度超出2048限制等一系列问题,经过一天的排查终于将问题解决,在此将问题记录下来,并提供了修改后的flume-ng-core-1.7.0下载包,供后来的同学参考 ** 问题描述 首先,笔者发现问题是由于发现近期日志总量变少,去...

2019-09-29 12:45:07

阅读数 210

评论数 0

原创 kafka producer实例池实现生产者多线程写入

Kafka producer是单线程的,但是有时候会有单进程大量写入数据到kafka的需求,这是单线程的producer往往就难以满足需求,但是如果在每个发送线程里有new一个新的producer又太浪费资源,因此我们想是否能有办法像数据库连接池一样复用kafka连接最终实现多线程写入,经过调研、...

2019-07-16 10:46:31

阅读数 1118

评论数 0

原创 记一次spark streaming+kafka 运行时间不稳定调优历程

spark streaming+kafka运行batch process time不稳定问题梳理问题现象排障调优历程解决方案 问题现象 题主在去年8月份首次使用spark streaming进行流式计算的时候遇到的一个问题,即spark streaming读取kafka消息进行流式计算, 但是在数...

2019-06-30 16:08:23

阅读数 1263

评论数 5

原创 Mycat调优启用useOffHeapForMerge报java.lang.NumberFormatException异常解决(附源码)

以前在进行Mycat调优的时候设置过Mycat的useOffHeapForMerge参数,发现在大数据量查询聚合的时候启用堆外内存对于查询性能提升非常明显,但是最近在新的生产环境部署Mycat启动的时候总是报错java.lang.NumberFormatException: Size must b...

2019-05-06 16:53:26

阅读数 431

评论数 0

原创 Spark Streaming广播变量更新问题

最近在使用Spark Streaming进行流式计算过程中,遇到在过滤函数中需要用到外部过滤条件列表,且列表会随时更新,一开始只是在main函数中获取过滤条件列表,但是后来发现streaming程序每次触发并非重新执行一遍main函数,部分代码(个人理解为非spark DAG有向图中rdd依赖链中...

2019-04-29 16:34:17

阅读数 1246

评论数 4

原创 基于两级Flume+Kafka的日志采集架构

本文给出了一种基于Flume+Kafka的通用日志采集传输架构,记录了其中的组件部署、配置、故障解决的过程,希望给后来的同学提供一些参考,不足之处欢迎指正

2019-03-13 20:41:56

阅读数 182

评论数 0

原创 Hbase Scan查询左右区间开闭问题

刚开始用Hbase,用Scan进行数据查询,以为类似于Mysql的between…and…,但是发现查询结果不对 Table table = connection.getTable(TableName.valueOf(tableName)); Scan scan = new Scan(); sca...

2019-01-14 15:09:47

阅读数 642

评论数 0

原创 Unsatisfied dependency expressed through field

刚开始用Spring注解,编译通过,运行时报错Error creating bean with name…:Unsatisfied dependency expressed through field…nested exception is org.springframework.beans.fa...

2018-12-25 17:45:39

阅读数 3840

评论数 0

原创 Mycat分片路由解析引起的查询效率问题解决--源码解读

题前话 对于做大数据分析的同学来说,整个ETL过程无疑是大数据工作中最有挑战也最耗费精力的部分,尤其是在数据收集、清洗、计算阶段,比如如何保证数据收集完整,如何保证清洗后数据真实有效字段含义准确,如何选取集群计算引擎保证数据处理稳定高效,如何实现集群高可用以及容错机制等等,然而做完这些工作只...

2018-12-24 09:21:35

阅读数 1185

评论数 3

提示
确定要删除当前文章?
取消 删除