- 博客(125)
- 资源 (2)
- 问答 (3)
- 收藏
- 关注

原创 Kingbase自动创建分区表及冷热存储
摘要: 本文介绍了一种基于PostgreSQL的分区表冷热数据管理方案。首先创建hot_ts和cold_ts两个表空间分别存储热数据和冷数据,然后建立按月分区的表结构,并设置复合主键(必须包含分区键)。通过创建自动分区管理函数实现每月自动创建新分区,并设计冷热数据维护函数实现:1)3-12个月的数据迁移至冷存储;2)超过12个月的数据自动删除。方案还包括初始分区处理、表空间检查和异常处理等细节。最后展示了数据查询方法和性能优化建议,如本地索引创建。该方案实现了数据生命周期的自动化管理,有效平衡存储成本和查询
2025-06-05 09:46:53
304

原创 JavaFlink原理、实战、源码分析(三)原理部分
JavaFlink原理、实战、源码分析(一)https://blog.csdn.net/qq_36250202/article/details/112978869JavaFlink原理、实战、源码分析(二)https://blog.csdn.net/qq_36250202/article/details/115668572第八章 ProcessFunction API(底层 API) ...
2021-04-15 17:47:30
1138

原创 JavaFlink原理、实战、源码分析(二)原理部分
JavaFlink原理、实战源码分析(一)https://blog.csdn.net/qq_36250202/article/details/112978869第六章 Flink 中的 Window主要内容• window 概念• window 类型• window API6.1 Window6.1.1 Window 概述 streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割.
2021-04-13 15:13:25
2181

原创 JavaFlink原理、实战、源码分析(一)原理部分
第一章 Flink 简介 Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。1.2 Flink 的重要特点 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。...
2021-01-22 10:51:09
2151
2

原创 SpringCloud Alibaba史上最强详解与史上最系统框架搭建
框架实现代码资源地址:springCloud_dataservice_bus.zip_springcloudalibaba搭建-Java文档类资源-CSDN下载目录一、官网集合:Springboot官网中文文档Mybatis官网SpringCloud Alibaba官网github中文官网英文官网Nacos官网Sentinel官网OpenFeign官网Gateway官网Seata官网Sleuth官网二、微服务架构编码构建2.1 idea新.
2020-06-18 11:03:40
20254
21
原创 提取shp数据geopandas 操作文档
要将GeoPandas中的.shp文件数据提取为可读文档,你可以使用GeoPandas提供的方法将数据转换为其他格式,如CSV或Excel。类似地,上述代码将.shp文件读取为GeoDataFrame对象data,然后使用to_excel()方法将数据保存为Excel文件。上述代码将.shp文件读取为GeoDataFrame对象data,然后使用to_csv()方法将数据保存为CSV文件。使用这些方法,你可以方便地将.shp文件数据提取为不同格式,以便更容易读取和处理数据。# 将数据保存为CSV文件。
2024-11-05 11:05:00
523
原创 flinksql-Queries查询相关实战
-例如,ROLLUP(a, b, c) 会生成 (a, b, c), (a, b), (a), 和 (),而不会像 CUBE() 那样生成所有的可能组--合。--CUBE() 是一种扩展的 GROUP BY 操作,允许你针对多列进行分组聚合,并生成每种可能的维度组合的聚合结果。--如果使用了 CUBE(a, b, c),Flink 会计算出所有 a, b, c 及其子集的组合的聚合结果。--与 CUBE() 不同,ROLLUP() 只生成按从左到右逐步减少维度的组合,而不是所有可能的子集组合。
2024-10-29 10:20:40
1082
1
原创 flink-jdbc-driver
Flink JDBC 驱动是一个通过 JDBC API 访问 Flink 集群的库。有关 Java 中 JDBC 的一般用法,请参见。Flink JDBC 驱动程序是一个 Java 库,使客户端能够通过。首先启动:1.flink集群,随意任何集群。将 Flink SQL 发送到 Flink 集群。注释的是mysql的,运行的是paimon的。验证sql- gateway。
2024-10-09 16:21:51
677
原创 统计Mysql库中每个表的总行数,解决table_rows不准确问题
注意:GROUP_CONCAT()默认容量是1024,拼接sql会出现截断,设置的大一些。
2023-08-23 14:56:50
1443
原创 Java模拟登录并获取Cookie进行访问下一个页面
1. 获取__VIEWSTATE与__EVENTVALIDATION。返回页面html->Document并且转为字符串。
2023-08-14 14:07:47
946
原创 Hudi集成Flink
将 hudi-hadoop-mr-bundle-0.12.0.jar和hudi-hive-sync-bundle-0.12.0.jar放到hive节点的lib目录下;'hive_sync.metastore.uris' = 'thrift://ip:9083' -- required, metastore的端口。'hive_sync.table'='${hive_table}', -- required, hive 新建的表名。
2023-04-12 11:56:13
876
原创 mysql 更新update set from where 语法
Mysql 代替语法 update 表名 inner join 表名 on set。
2023-02-07 12:00:38
4646
原创 ClickHouse安装并与SpringBoot集成
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++ 语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。1.1 ClickHouse 的特点列式存储以下面的表为例:1张三182李四223王五341张三182李四223王五34好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想。
2022-10-18 15:47:49
3344
原创 Java实现Minio桶存储配额等一系列权限配置
Minio实现创建桶、桶存储配置(存储大小、生命周期)、策略配置、用户权限配置,获取桶已使用存储空间及配置总存储空间。Minio JavaAPI没有实现相关桶的一系列权限配置,所以自行研发了一套。2.MInio接口实现 MinioTemplateService。3.接口实现类 MinioTemplateServiceImpl。1.需要传的参数封装为实体类。............
2022-08-29 09:11:27
5819
10
原创 离线数仓建设及技术选型
主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。整合企业业务数据,建立统一的数据中心;产生业务报表,了解企业的经营状况;为企业运营、决策提供数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为企业盈利;➢ 数据采集传输:Flume,Kafka,Sqoop➢ 数据存储:MySql,HDFS(公司有云存储最好是上云)➢ 数据计算:Hive,Tez
2022-07-07 10:26:17
1703
原创 阿里云实时计算平台Flink报错汇总
一、报错问题1.2022.04.14记录全托管实时计算平台所有cdc模式都不支持窗口,如果加上cdc模式会报错:org.apache.flink.table.api.TableException: StreamPhysicalWindowAggregate doesn't support consuming update and delete changes which is produced by node TableSourceScan(table=[[vvp, dwd, holo_d
2022-04-22 15:37:07
4263
原创 ApacheHudi最强详解
一、Hudi介绍1.1 Hudi的定义:Apache Hudi是一种开源的数据湖表格式框架。Hudi基于对象存储或者Hdfs组织文件布局,保证ACID,支持行级别的高效更新和删除,从而降低数据ETL开发门槛。同时该框架支持自动管理及合并小文件,保持指定的文件大小,从而在处理数据插入和更新时,不会创建过多的小文件,引发查询端性能降低,避免手动监控和重写小文件的运维负担。结合Flink、Presto、Spark等计算引擎进行数据入湖和计算分析,常用来支持DB入湖加速、增量数据实时消费和数...
2022-03-09 19:53:02
1868
原创 Sql扫盲
数据集1.distinct1.1当distinct后跟一列时,只对当前列去重案例:select distinct name2 from holo_dwd_0_wangshuaizun_test_source2 1.2 当distinct 后跟好多列时,其实是对后面所有列名的组合进行去重案例:select distinct name2,sex from holo_dwd_0_wangshuaizun_test_source22.order by...
2022-01-10 17:35:27
579
原创 计算机存储单位
计算机存储单位 计算机存储单位一般用B,KB,MB,GB,TB,EB,ZB,YB,BB来表示,它们之间的关系是: 位 bit (比特)(Binary Digits):存放一位二进制数,即 0 或 1,最小的存储单位。 字节 byte:8个二进制位为一个字节(B),最常用的单位。 1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 简称“兆”)=1024KB, 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB,...
2021-12-30 16:48:41
361
原创 Flink反压监控与原理
在 Flink V1.5 版之前,其实 Flink 并没有刻意做上述所说的动态反馈。那么问题来了,没有做上述的动态反馈机制,Flink 难道不怕数据丢失或者上游和下游的一些 Buffer 把内存撑爆吗?当然不怕了,因为 Flink 已经依赖其他机制来实现了所谓的动态反馈。其实很简单,让我们继续往下看。跨 Task,动态反馈如何从下游 Task 的 Receive Buffer 反馈给上游 Task 的 Send Buffer。
2021-12-29 16:43:25
1031
原创 FlinkSql函数
rt AS TO_TIMESTAMP( FROM_UNIXTIME(ts) )FROM_UNIXTIME 是系统内置的时间函数,用来将一个整数(秒数)转换成 “YYYY-MM-DD hh:mm:ss”格式(默认,也可以作为第二个 String 参数传入)的日期时间 字符串(date time string);然后再用 TO_TIMESTAMP 将其转换成 Timestamp...
2021-10-27 10:22:49
5655
原创 JavaFlink开发的一些基本配置
默认情况下,检查点被禁用。要启用检查点,请在StreamExecutionEnvironment上调用enableCheckpointing(n)方法,其中n是以毫秒为单位的检查点间隔。检查点的其他参数包括: exactly-once vs. at-least-once:你可以从这两种模式中选择一种模式传递给enableCheckpointing(n)方法。Exactly-once对于大多数应用来说是最合适的。At-least-once可能用在某些延迟超低的应用程序(始终延迟为几毫秒)。
2021-10-20 15:46:50
781
原创 阿里云实时数仓搭建与组件选型
一、实时数仓分层规范1.1 分层需求分析建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。我们这里从 loghub、kafka 的 ods 层读取用户行为日志以及业务数据,并进行简单处理,写回到 kafka、hologres作为 dwd 层。1.2每层的职能 分层 数据描述 生成计算工具 存储媒介 ODS .
2021-10-09 17:41:03
1331
3
原创 Flink搭建实时数仓一些问题并解决
1.org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException:具体报错org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family ta
2021-09-03 16:22:25
865
原创 使用策略模式+工厂模式替换一串串的if else 与 switch
1.详解工厂模式与替换if else1.1详解工厂模式:https://blog.csdn.net/qq_36250202/article/details/101022057?spm=1001.2014.3001.5501通俗易懂,看完后要回来哦,你还没有学习怎么替换if esle1.2替换if esle1.2.1定义策略执行接口public interface LsssxsxtStrategy { // 定义策略执行方法 String algorithm(...
2021-08-31 10:10:52
385
原创 Hbase value存储的16进制转10进制与汉字
Hbasevalue=\x00\x00\x00\x00\x07'\x0E\x00这串16进制中有ACSII码字符1.需要对照ACSII码表把字符转换为16进制:\x00\x00\x00\x00\x07'\x0E\x00转换为:\x00\x00\x00\x00\x0727\x0E\x002.把第一位"\x"转换为16进制中已“0x”开头的,后边的\x去掉\x00\x00\x00\x00\x0727\x0E\x00转换为:0x0000000007270E003.使用linux转换
2021-03-18 15:11:33
1603
原创 Kafka实战中深入理解
生产者发布消息到分区的两种方式:1.通过随机方式将请求负载到不同的消息代理节点(分区partition)2.使用分区语义函数将相同键的所有消息发布到同一分区,对于分区语义,Kafka暴露了一个接口,允许用户指定消息的键如何参与分区。比如,我们可以将用户编号作为消息的键,因为对相同用户编号散列后的值是罔定的,所以对应的分区也是固定的。...
2020-11-27 13:53:42
630
原创 Storm并行机制与常见参数配置
一、Strom并行机制1.概述: Storm集群中的并发度主要由以下四个概念来决定:1)Nodes--服务器 指的是Storm集群中的一个服务器,会执行Topology的一部分运算,一个Storm集群中包含一个或者多个Node。2)Workers--JVM进程 指一个Node上相互独立运作的JVM进程,每个Node可以配置运行一个或多个worker。一个Topology会分配到一个或者多个worker上运行。3)Executor--执行线程 ...
2020-11-13 14:59:06
721
Minio桶一系列权限配置
2022-08-29
SpringBoot+MybatisPlus集成Clickhouse
2022-10-18
微信公众号拍照上传多张图片接口
2017-03-03
java微信公众号开发内置地图接口
2017-03-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人