自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Flink的时间语义与水印(WaterMark)

Flink的时间语义与水印(WaterMark) 在实时处理中,由于数据的产生时间与消费时间是无法做到一致的,如果使用处理时间来进行业务逻辑的判断,实际上是无法保证做到数据的准确性的。这体现在以下几个方面: 事件发生于2:59,而程序处理时已经是3:00,对事件的统计将会计入到3:00开始的窗口 flink出现故障,两个小时后恢复时,需要消费这两个小时内新产生的数据,这些数据会全部进入到flink重新启动后的窗口 flink按递增顺序给数据标号,而重启后flink数据与重启前数据顺序是不同的,导致标号不同

2021-07-19 19:31:28 188

原创 SparkStreaming如何消费Kafka

引言 目前来说大部分使用SparkStreaming的项目,都是从Kafka消费数据,为此SparkStreaming提供了一套连接Kafka消费数据的API,使用此套API可以方便智能的建立与Kafka分区的连接,而不再是使用Receiver收数据并转发,以下是对官方文档的翻译及自己的理解。 SparkStreaming消费Kafka SparkStreaming提供了并行连接kafka的API而不需要使用Receiver。Kafka分区数会与Executor数1:1对应。 操作步骤如下 1.引入依赖

2021-07-03 22:22:15 907 1

原创 Hbase是什么?

Hbase/Hadoop Database 是什么 概念/定义 Hbase是一个分布式,可扩展,支持海量数据存储的noSQL数据库 优点 支持大量的数据存储 易拓展 自动切片,自动故 障转移 可以使用Java API编程 缺点 没有高级查询语句 延迟较MySql等关系型数据库大 需要分布式运行,需要一定的机器数量 名词解释 namespace 类似于mysql database rowkey:每条数据的唯一标识,hbase中的数据按照rowkey字典序排序的(1 10 100 101 11 20 21) r

2021-06-30 22:13:14 3127 2

原创 HiveUDAF的实现----一个示例

HiveUDAF的实现 1.添加jar包依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency> 2.继承AbstractGenericUDAFResolver类

2021-06-28 20:49:09 530 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除