自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 问答 (2)
  • 收藏
  • 关注

原创 hive使用技巧-日期区间合并

​ 将同一用户的多段连续日期范围,进行合并。要合并成。

2023-11-07 19:19:35 336

原创 Hologres使用说明

1.holo代替kafka作为实时计算的数据传输介质2.holo部分字段更新功能使用

2023-02-15 10:37:01 542 1

原创 redis-cli: command not found 问题解决

redis-cli: command not found

2022-11-25 11:12:19 7065 1

原创 大数据组件官方网站

大数据组件官方地址

2022-11-04 11:27:06 495

原创 kafka单个生产者向具有多个partition的topic写数据(写入分区策略)

使用轮询策略和随机策略,单个分区是有序,但是整个topic的分区数据消费者组中的消费者读起来,就是乱序的了。按key分区策略,只能保证局部有序。kafka中的消息是全局乱序的,局部partition是有序的,如果我们要实现消息总是有序的,可以将连续的消息放到一个partition。但kafka就失去了分布式的意义。

2022-10-09 15:34:55 1509

原创 flink 调优指南

本文主要介绍一些flink内存模型、参数配置、性能监控相关知识,直接先上一个思维导图。Flink 性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源配置调优内存模型详解JVM 特定内存JVM 本身使用的内存,包含 JVM 的 metaspace 和 over-head1)JVM metaspace:JVM 元空间taskmanager.memory.jvm-metaspac

2022-04-17 16:23:21 3425 4

转载 ClickHouse深度解析

**一、什么是ClickHouse?**ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。二、适用场景志数据行为分析标签画像的分析数据集市分层广告系统和实时竞价广告电商和金融行业实时监控和遥感测量商业智能在线游戏

2022-04-12 20:09:17 567

转载 hbase 单例连接

https://www.jianshu.com/p/8aa29760f65d

2022-04-08 16:49:41 137

原创 windows安装kafka

一、下载kafkahttp://kafka.apache.org/downloads选择二进制版本。二、安装kafka下载到本地后,将文件解压到本地磁盘下,该文件夹包括了所有相关的运行文件及配置文件,其子文件夹bin\windows 下放的是在Windows系统启动zookeeper和kafka的可执行文件,子文件夹config下放的是zookeeper和kafka的配置文件。将安装包在本地解压。$ tar -xzf kafka_2.13-2.8.0.tgz$ cd kafka_2.13

2022-03-18 14:46:51 4808

原创 flink+kafka 实现wordcount

以下内容基于flink1.12pom依赖 <properties> <encoding>UTF-8</encoding> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> &

2022-03-18 14:40:11 2920

原创 flink 相关资料

相关链接ververica中文网站:https://ververica.cn/Apache Flink 视频教程:https://github.com/flink-china/flink-training-courseFlink Forward Asia 2019:https://ververica.cn/developers/flink-forward-asia-2019/Flink Forward China 2018:https://github.com/flink-china/fli

2022-03-17 17:23:29 2184

转载 parquet 文件结构

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。 它类似于Hadoop中可用的其他列存储文件格式,如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。Parquet文件格式包含两部分:datametadata数据首先写入文件,元数据最后写入单遍(single pass)写入。 首先让我们看一下Parquet文件的格式,然后再看一下元数据。文件格式HEADER从整体上讲,Parquet包含一个header,一个或多个

2022-03-14 20:15:33 913

原创 Flink之state processor api读取checkpoint文件

什么是State ProcessorAPI官方文档说明:https://nightlies.apache.org/flink/flink-docs-release-1.12/zh/dev/libs/state_processor_api.html目的使用 State Processor API 可以 读取、写入和修改 savepoints 和 checkpoints ,也可以转为SQL查询来分析和处理状态数据。定位作业中的问题。使用方式介绍引入pom <!--读checkpoint--

2022-01-10 18:54:21 1580

原创 git 基本使用

git使用命令git init 初始化git remote add origin git@code.data4truth.com:dataplatform/dataLake.git 添加远程关联git remote add shb git@code.data4truth.com:sanhongbo/realtime-etl-yanglao.git 添加分支远程关联git remote rename origin shb 将拉下来的分支改名git remote -v 查看本地所有的re

2022-01-05 15:22:56 225

原创 flink窗口详细说明

时间语义Event Time : 事件创建的时间 (一般为kafka中消息中的时间字段,为事件消息的创建事件)Ingestion Time:数据进入Flink的时间 (如source读取到kafka流时的时间)Processing Time:执行操作算子的本地系统时间,与机器有关(算子执行当前时间时的时间)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mvk5ksLi-1640934899882)(f461d93e248f0c51291055debd50ad00.

2021-12-31 15:15:38 2106

原创 flink 架构、概念介绍

flink结合实时告警分享flink是什么批处理 是有界数据流处理的范例。在这种模式下,可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。流处理 正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LnYlQ9Z7-1640774068983)(20200914090758635.png)]

2021-12-29 18:34:46 1343

原创 Hbase介绍

Hbase介绍什么是HbaseHbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价的PC Server上搭建大规模结构化存储集群。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库)Hbase 的特点Hbase 中的表一般有以下特点。大:一个表可以有上亿行,上百万列。面向列:面向列(列簇

2021-12-29 18:30:12 5930 2

原创 kafka 偏移量latest、earliest

earliest:如果一个消费者之前提交过offset。 假设这个消费者中途断过,那当它恢复之后重新连接到队列集群 此时应该是从 它在集群中之前提交的offset点开始继续消费,而不是从头消费。 而一个消费者如果之前没有offset记录并设置earliest ,此时才会从头消费。按照栗子来说就是 之前订过1月份的报纸(存在offset记录)然后设置earliest此时是不管用的,报社还是会给你发1月之后的报纸(不会从头消费),而如果你是一个新用户(不存在offset) 当你订阅报纸并设置earliest

2021-12-28 09:48:50 11513 2

转载 JVM知识整理

敖丙思维导图系列目录 这些知识整理都是自己查阅帅丙资料(当然还有其他渠道)加以总结滴~ 每周都会更新知识进去。 如有不全或错误还请大家在评论中指出~ 敖丙思维导图-集合敖丙思维导图-多线程之synchronized\ThreadLocal\Lock\Volatitle\线程池...

2021-12-16 17:53:41 78

原创 spark-sql time window使用

spark sql time window使用方式:window(t1.eventTime, “5 minute”, “1 minute”)加在sql中通过grooup by 进行离线数据的开窗操作。

2021-12-08 17:40:17 1331

原创 flink sql写mysql类型转换

DECIMAL(m,n)使用n为小数部分位数,m为整数+小数位数flink sql 写入字段使用mysql默认值mysql字段类型为int值,默认值为nullflink sql中可使用cast(’’ as int) ,进行类型转换

2021-09-26 11:17:40 1997

转载 kafka集群一键安装

参考原文https://blog.csdn.net/qq_37641047/article/details/105281050真棒

2021-03-26 22:54:40 191

原创 docker安装Hadoop集群(macOS)

本文章主要介绍在macos的docker搭建hadoop集群的简单记录,没有对安装docker,下载hadoop安装包等做过多的介绍。如果感性兴趣可自行查阅相关文章(比较基础)。创建docker网桥本文也没有介绍,最好先了解一下网桥相关知识。

2021-03-06 14:52:11 1830

Hologres使用说明

1.hologres代替kafka作为实时数据传输介质 2.hologres部分字段更新能力介绍

2023-02-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除