自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 hive的几种调优

1.根据场景使用分区表或者分桶表2.使用列式存储文件格式(orc parquet)3.没有上线使用的时候使用本地测试模式 set mapreduce.framework.name=local4.合理的设置maptask和reducetask的个数5.避免写select * from6.如果内存充足,使用with x as()7.使用left semi join 代替 select from in8.使用group by 聚合 替代 count(distinct(name))9

2022-04-06 23:11:35 1794

原创 JAVA基础回顾

java的一些基础知识

2022-04-04 21:52:57 154

原创 flink的watermarker理解

watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序的产生(out-of-order或者说late element)。但是对于late element,我们又不能无限期的等下去,必须要有个机制来保证一个特定的时间后,必须触发wi

2022-04-02 21:25:02 1588

原创 kafkaSink实现ExactlyOnec的过程

FlinkKafkaProdecer继承TwoPhaseCommitSinkFunction(分两个阶段提交sink),TwoPhaseCommitSinkFunction实现了连接的接口CheclpointedFunction和CheckpointListener实现CheckpointedFunction接口要实现initializeState和snapshosState方法实现CheckpointListener接口要实现notifyCheckpointComplete和notifyChe

2022-04-01 20:57:10 1901

原创 大数据之clickHouse

简介ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouseClickHouse是一个完全的列式分布式数据库管理系统(DBMS),允许

2022-03-31 21:58:58 639

原创 flink的背压机制

话不多说,直接上图背压,归根结底就是为了让实施消费的数据和处理的数据达到动态的平衡,让资源利用率达到最高。当前Task处理数据的速度比较慢,比如每条数据都要进行算法调用之类的,而上游Task处理数据较快,从而导致上游发送端申请不到足够的内存,就会造成背压问题。flink的背压特性是逐渐反向背压,从下游的算子开始逐渐排查是哪个算子处理数据处理不过来了。然后上游减缓发送速度。当fink自动逐级背压处理不过来的时候就需要人为手动来干预了。...

2022-03-30 20:11:38 2012

原创 Flink几个关键知识点

mapstate底层结构package com.doit.flink.day06;/** * @Date 2022/2/20 15:52 * @Created by JIA * @Description */import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.

2022-03-29 21:44:34 523

原创 Flink 的 Exactly Once 和 At Least Once

exactly-once:即使producer重试发送消息,消息也会保证最多一次地传递给最终consumer。该语义是最理想的,但也难以实现,这是因为它需要消息系统本身与生产和消费消息的应用程序进行协作。例如如果在消费消息成功后,将Kafka consumer的偏移量rollback,我们将会再次从该偏移量开始接收消息。这表明消息传递系统和客户端应用程序必须配合调整才能实现excactly-once at-least-once:如果producer收到来自Kafka broker的确认(ack)或者ack

2022-03-28 18:52:27 2050

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除