sanhongbo-CSDN博客

原创 hive使用技巧-日期区间合并

将同一用户的多段连续日期范围，进行合并。要合并成。

2023-11-07 19:19:35 728

原创 Hologres使用说明

1.holo代替kafka作为实时计算的数据传输介质2.holo部分字段更新功能使用

2023-02-15 10:37:01 766

原创 redis-cli: command not found 问题解决

redis-cli: command not found

2022-11-25 11:12:19 8150 1

原创 kafka单个生产者向具有多个partition的topic写数据（写入分区策略）

使用轮询策略和随机策略，单个分区是有序，但是整个topic的分区数据消费者组中的消费者读起来，就是乱序的了。按key分区策略，只能保证局部有序。kafka中的消息是全局乱序的，局部partition是有序的，如果我们要实现消息总是有序的，可以将连续的消息放到一个partition。但kafka就失去了分布式的意义。

2022-10-09 15:34:55 1822

本文主要介绍一些flink内存模型、参数配置、性能监控相关知识，直接先上一个思维导图。Flink 性能调优的第一步，就是为任务分配合适的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源配置调优内存模型详解JVM 特定内存JVM 本身使用的内存，包含 JVM 的 metaspace 和 over-head1）JVM metaspace：JVM 元空间taskmanager.memory.jvm-metaspac

2022-04-17 16:23:21 3667 4

转载 ClickHouse深度解析

**一、什么是ClickHouse？**ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS，简称CK, 与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级,查询性能非常好，使用之后会被它的性能折服，非常值得安利。二、适用场景志数据行为分析标签画像的分析数据集市分层广告系统和实时竞价广告电商和金融行业实时监控和遥感测量商业智能在线游戏

2022-04-12 20:09:17 756

转载 hbase 单例连接

https://www.jianshu.com/p/8aa29760f65d

2022-04-08 16:49:41 206

原创 windows安装kafka

一、下载kafkahttp://kafka.apache.org/downloads选择二进制版本。二、安装kafka下载到本地后，将文件解压到本地磁盘下，该文件夹包括了所有相关的运行文件及配置文件，其子文件夹bin\windows 下放的是在Windows系统启动zookeeper和kafka的可执行文件，子文件夹config下放的是zookeeper和kafka的配置文件。将安装包在本地解压。$ tar -xzf kafka_2.13-2.8.0.tgz$ cd kafka_2.13

2022-03-18 14:46:51 4926

原创 flink+kafka 实现wordcount

以下内容基于flink1.12pom依赖 <properties> <encoding>UTF-8</encoding> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> &

2022-03-18 14:40:11 3041

原创 flink 相关资料

相关链接ververica中文网站：https://ververica.cn/Apache Flink 视频教程：https://github.com/flink-china/flink-training-courseFlink Forward Asia 2019:https://ververica.cn/developers/flink-forward-asia-2019/Flink Forward China 2018:https://github.com/flink-china/fli

2022-03-17 17:23:29 2263

转载 parquet 文件结构

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。Parquet文件格式包含两部分：datametadata数据首先写入文件，元数据最后写入单遍（single pass）写入。首先让我们看一下Parquet文件的格式，然后再看一下元数据。文件格式HEADER从整体上讲，Parquet包含一个header，一个或多个

2022-03-14 20:15:33 1316

原创 Flink之state processor api读取checkpoint文件

什么是State ProcessorAPI官方文档说明：https://nightlies.apache.org/flink/flink-docs-release-1.12/zh/dev/libs/state_processor_api.html目的使用 State Processor API 可以读取、写入和修改 savepoints 和 checkpoints ,也可以转为SQL查询来分析和处理状态数据。定位作业中的问题。使用方式介绍引入pom <!--读checkpoint--

2022-01-10 18:54:21 1898

原创 git 基本使用

git使用命令git init 初始化git remote add origin git@code.data4truth.com:dataplatform/dataLake.git 添加远程关联git remote add shb git@code.data4truth.com:sanhongbo/realtime-etl-yanglao.git 添加分支远程关联git remote rename origin shb 将拉下来的分支改名git remote -v 查看本地所有的re

2022-01-05 15:22:56 271

原创 flink窗口详细说明

时间语义Event Time : 事件创建的时间（一般为kafka中消息中的时间字段，为事件消息的创建事件）Ingestion Time：数据进入Flink的时间（如source读取到kafka流时的时间）Processing Time：执行操作算子的本地系统时间，与机器有关（算子执行当前时间时的时间）[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mvk5ksLi-1640934899882)(f461d93e248f0c51291055debd50ad00.

2021-12-31 15:15:38 2299

原创 flink 架构、概念介绍

flink结合实时告警分享flink是什么批处理是有界数据流处理的范例。在这种模式下，可以选择在计算结果输出之前输入整个数据集，这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。流处理正相反，其涉及无界数据流。至少理论上来说，它的数据输入永远不会结束，因此程序必须持续不断地对到达的数据进行处理。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LnYlQ9Z7-1640774068983)(20200914090758635.png)]

2021-12-29 18:34:46 1434

原创 Hbase介绍

Hbase介绍什么是HbaseHbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价的PC Server上搭建大规模结构化存储集群。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）Hbase 的特点Hbase 中的表一般有以下特点。大：一个表可以有上亿行，上百万列。面向列：面向列（列簇

2021-12-29 18:30:12 13011 2

原创 kafka 偏移量latest、earliest

earliest：如果一个消费者之前提交过offset。假设这个消费者中途断过，那当它恢复之后重新连接到队列集群此时应该是从它在集群中之前提交的offset点开始继续消费，而不是从头消费。而一个消费者如果之前没有offset记录并设置earliest ，此时才会从头消费。按照栗子来说就是之前订过1月份的报纸（存在offset记录）然后设置earliest此时是不管用的，报社还是会给你发1月之后的报纸（不会从头消费），而如果你是一个新用户（不存在offset）当你订阅报纸并设置earliest

2021-12-28 09:48:50 12348 2