自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

QenXX的博客

原创 Flink的时间语义与水印（WaterMark）

Flink的时间语义与水印（WaterMark）在实时处理中，由于数据的产生时间与消费时间是无法做到一致的，如果使用处理时间来进行业务逻辑的判断，实际上是无法保证做到数据的准确性的。这体现在以下几个方面：事件发生于2：59，而程序处理时已经是3：00，对事件的统计将会计入到3：00开始的窗口flink出现故障，两个小时后恢复时，需要消费这两个小时内新产生的数据，这些数据会全部进入到flink重新启动后的窗口flink按递增顺序给数据标号，而重启后flink数据与重启前数据顺序是不同的，导致标号不同

2021-07-19 19:31:28 203

原创 SparkStreaming如何消费Kafka

引言目前来说大部分使用SparkStreaming的项目，都是从Kafka消费数据，为此SparkStreaming提供了一套连接Kafka消费数据的API，使用此套API可以方便智能的建立与Kafka分区的连接，而不再是使用Receiver收数据并转发，以下是对官方文档的翻译及自己的理解。SparkStreaming消费KafkaSparkStreaming提供了并行连接kafka的API而不需要使用Receiver。Kafka分区数会与Executor数1：1对应。操作步骤如下1.引入依赖

2021-07-03 22:22:15 930 1

原创 Hbase是什么？

Hbase/Hadoop Database是什么概念/定义Hbase是一个分布式，可扩展，支持海量数据存储的noSQL数据库优点支持大量的数据存储易拓展自动切片，自动故障转移可以使用Java API编程缺点没有高级查询语句延迟较MySql等关系型数据库大需要分布式运行，需要一定的机器数量名词解释namespace 类似于mysql databaserowkey：每条数据的唯一标识，hbase中的数据按照rowkey字典序排序的（1 10 100 101 11 20 21）r

2021-06-30 22:13:14 3176 2

原创 HiveUDAF的实现----一个示例

HiveUDAF的实现1.添加jar包依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>2.继承AbstractGenericUDAFResolver类

2021-06-28 20:49:09 543 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Qen.X CSDN认证博客专家 CSDN认证企业博客

码龄4年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

4: 原创

47万+: 周排名

67万+: 总排名

4852: 访问

: 等级

50: 积分

1: 粉丝

2: 获赞

5: 评论

2: 收藏

私信

关注

热门文章

分类专栏

flink 1篇
Spark 1篇
Hbase 1篇
应用

最新评论

SparkStreaming如何消费Kafka
大家一起学编程（python）: 这个操作秀
Hbase是什么？
大家一起学编程（python）: 999
HiveUDAF的实现----一个示例
大家一起学编程（python）: 999,六翻了
Hbase是什么？
彼方: 好文，进我的收藏夹吃灰吧
HiveUDAF的实现----一个示例
彼方: 好文，已收藏，大佬分析的很到位，明白了很多，大赞！（￣ˇ￣)，大佬有兴趣也可以看下我的博客哈

最新文章

提示

确定要删除当前文章？

取消删除