自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 flink消费kafka protobuf格式数据

总结:其实跟正常的读kafka一样,只是多了一个反序列化的步骤。

2023-03-29 19:54:56 472

原创 flink side-output侧输出

相信大家在用flink或spark时都遇到过这样的情况:stream.filter(true/false),流中filter的数据,过滤掉和没过滤掉的数据都想要保存,然后第一次想到的方法大概都是是a=stream.filter(true), b=stream.filter(false),这样不优雅,还会对性能造成影响,flink就提供了这样一个解决方案,就是侧输出,可以在一次计算中将两种数据都保...

2020-03-15 19:41:30 647 2

原创 flink实时写入hdfs之StreamingFileSink

上篇文章中介绍过flink实时写入hdfs之BucketingSink,官网已经说明在BucketingSink已经因为弗林克1.9弃用,将在后续版本中被删除。请改用StreamingFileSink。

2020-01-30 18:26:12 4141 1

原创 flink实时写入hdfs之BucketingSink

flink实时读取kafka依赖代码合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入依赖<dependency>...

2020-01-18 16:30:29 2035 5

原创 flink入门文章

FLINK入门为什么用flink真正的实时处理支持exactly-once越来越火,就好比,越来越多人开小汽车,而你还在骑马flink是什么“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。”Flink不仅能提供同时支持高吞吐和exactly-once 语义的实时计算,还能提供批量数据处理,这让许多人感到吃惊。鱼与熊掌并非不可兼...

2019-11-23 16:16:48 248 1

原创 kafka内部topic __consumer_offsets(一)

kafka __consumer_offsets介绍kafka在0.10.x版本后默认将消费者组的位移提交到自带的topic__consumer_offsets里面,当有消费者第一次消费kafka数据时就会自动创建,它的副本数不受集群配置的topic副本数限制,分区数默认50(可以配置),默认压缩策略为compact结构keyversion : 版本字段,不同kafka版本的vers...

2019-11-23 14:22:24 3208

原创 Kafka非常实用的操作命令总结

Kafka常用操作命令文章目录查看当前服务器中的所有topic创建topictopic级别修改修改topic数据保存时间对分区数进行修改topic分区重分配删除topic通过shell命令发送消息通过shell消费消息消费制定offset的消息查看消费位置查看Topic查看某个Topic的详情查看topic分区以及分区的offset,-1表示显示最大条数(初始offset为0时),-2查看每个分...

2019-04-24 23:47:29 397

原创 flink写入kafka之自定义分区器

直入正题,flink写入kafka根据某个数据中的字段做分区发送到kafka的指定分区,如果你在sink中每次要手动写producer,那么你可以略过此文章接着上篇文章flink写入kafka之默认序列化类和默认分区器直接上代码/*自定义分区*/@SuppressWarnings("unchecked")FlinkKafkaProducer010<String> fl...

2019-04-24 23:18:03 5909

原创 jmxtrans介绍与安装

安装jmxtransjmxtrans是一个通过jmx采集java应用的数据采集器,只要java应用开启了JMX端口,就可以进行采集去github下载 https://github.com/jmxtrans/jmxtrans/downloads源码下载编译git clone https://github.com/jmxtrans/jmxtrans.gitmvn clean pack...

2019-01-31 17:33:34 2979

原创 influxdb介绍与安装

文章目录Influxdb简介Influxdb保存策略安装InfluxDb安装方式一安装方式二(推荐)MAC OS X进入influxdb添加一个账号密码注意忘记密码Influxdb简介InfluxDB一个开源的时间序列数据库InfluxDB是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及执行分析。特性内置HTTP API,所以不用再写服务端代码来启动和运行。数据...

2019-01-31 17:25:17 237

原创 grafana介绍与安装

文章目录什么是grafanalinux安装安装方式一安装方式二配置邮件忘记admin密码开启用户注册禁止匿名登录配置告警grafana数据迁移什么是grafanaGrafana允许您查询,可视化,提醒和理解您的指标,无论它们存储在何处。与您的团队一起创建,探索和共享仪表板,并培养数据驱动的文化。linux安装Redhat&Centos (64位)SHA256:f8972ab7b342c30...

2019-01-31 17:15:44 2021

原创 HBase新版本Java API

###HBase新版本Java API之前没有码全,这次增删改查全乎了,网上有很多例子,自己根据实际在用的收集总结了一下导入的包import java.io.IOException;import java.util.Arrays;import java.util.List;import org.apache.hadoop.conf.Configuration;import ...

2019-01-09 21:12:56 583

原创 flume监控inode变化的文件

由于要实时读取redis的AOF文件,但是flume的taildir source在监控文件的时候,如果文件的inode变化了,那么会出现重复读取数据的情况,这里可以通过修改flume taildir源码解决,只针对读一个文件的情况。去flume官网下载flume源码下载解压后在idea中打开如下配置好maven,到flume-ng-source中找到ReliableTaildi...

2019-01-09 21:10:11 888

原创 sparkstreaming将offset存到hbase

之前一直将offset存到zookeeper,由于streaming程序会对zk有大量的读取操作,故将offset存到zk不太好,现已将offset都改到hbase中kafka版本:0.10.2.0spark版本:2.0hbase表结构:groupid名字作为表名,topic名字作为rowkey,列族为info,分区号作为列名kafka_offset:group...

2019-01-09 21:07:02 684 2

原创 kafka消息格式

kafka发送消息是有消息格式的,有三个版本V0,V1,V2V0版本:主要指kafka0.10.0.0之前的版本,是kafka最早的消息版本,其消息格式如下,一共7个字段:CRC:是整条消息的CRC32校验,占用4个字节,但是CRC校验值发送到broker端,可能消息格式会变,那么crc值也会变,等consumer消费了数据后,crc可能已经变化了几个版本了,所以这个crc值没有太大作...

2019-01-09 21:04:49 536

原创 HikariCP数据库连接池

快速,简单,可靠。HikariCP是一个“零开销”生产就绪JDBC连接池。大约130Kb,它的性能几乎是C3P0、DBCP的25倍,十分强悍引用大话数据库连接池配置也是十分简单maven依赖Java 8/9 maven artifact: &lt;dependency&gt; &lt;groupId&gt;com.zaxxer&lt;/groupId&gt;...

2019-01-09 21:03:56 870 1

原创 kafka删除topic

删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给kafka 使用者带来诸多问题,发现都会偶然出现无法彻底删除kafka的情况。前提:kafka必须配置参数delete.topic.enable=true如果需要被删除topic 此时正在被程序 produce和consume,则这些生产和消费程序需要停止执行删除命令./bin/kafka-topics --...

2019-01-09 21:01:24 307

原创 zookeeper的watcher

利用zk的watcher功能实时监控zk节点的变化,可以利用这个功能做报警、监控,例如监控kafka的broker,otter的node等,如果有节点挂掉,立时通知class MonitorZk(var zkHost: String, var zkPath: String) extends Watcher { var zoo: ZooKeeper = new ZooKeeper(zkHo...

2019-01-09 20:59:14 244

原创 sparkStreaming拉取kafka010的bug

目前kafka版本中,很多公司在用kafka010,但是在用sparkstreaming去消费kafka时,很多人都会碰到一个错误Caused by: java.lang.AssertionError: assertion failed: Failed to get records for spark-executor-abcd1 test1 8 1 after polling for 51...

2019-01-09 20:54:59 721

原创 python导包错误 ImportError: cannot import name a

开发工具pycharm运行方式pycharm右键运行python命令执行项目目录结构代码import osimport sysfrom test import aa.test()问题Traceback (most recent call last): File &quot;monitor_yarn/aa.py&quot;, line 1, in &amp;lt;module&amp;g...

2019-01-09 20:42:09 2728 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除