自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(378)
  • 收藏
  • 关注

原创 Grafana+Alter+webhook发预警给钉钉

Grafana通过为警报分配标签来处理警报通知,alert rules有定义label,即给不同的触发规则定义label。notification policies里配置label和contact points的关系。notification policies 将alert rules与contact points关联起来。1.架构简介:alert rules、contact points 、notification policies。首先复制出来钉钉群的钉钉机器人的access_token。

2023-08-02 09:53:25 1110

原创 Pushgateway+Prometheus监控Flink/Doris

思路方案。

2023-07-27 13:10:09 956 1

原创 FlinkUI和Flink常见问题解决

当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。其中,flink 管理的内存,包括代码定义的对象,放到的JVM Heap 堆内存,以及flink定义好的状态会放在 Off-Heap Memory 的Managed Memory,还有直接内存。

2023-06-05 14:30:24 671

原创 数据常用名词解释,数仓表设计

例如:现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id ,登录表中也存储了会员ID,字段名为userid ,此时针对会员ID这个数据创建统一的数据标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。即时间线,在基线运维场景中,通过设定几条时间线(即基线),并将线上任务关联到这些时间线上,当这些任务的实例或上游实例运行失败,或者这些实例的预计产出时间超过对应的时间线时,系统会触发报警通知给值班人员。

2023-04-21 16:50:00 647

原创 Pyspark判断日期是否为休息日并做成日历表udf

pycharm安装chinesecalender ,file-setting-python interpreter加号找chinesecalender 然后安装。做基础日历表的那一部分可以看我的另一篇博文 Hive日历表。

2023-04-20 11:14:48 264

原创 FlinkCE(4):贪婪词量匹配和四种匹配模式

{n,}(n或者更多行(n≥O))+(至少匹配1行或多行){n}(严格匹配n行)*(匹配0行或多行)

2023-03-28 13:13:53 176

原创 FlinkCEP(3)-宽松近邻

代表e2至少要满足一次。依赖和上一篇文章一致。

2023-03-28 09:59:30 105

原创 FlinkCEP(2)-严格近邻代码演示-风控系统构建

输出满足条件的三条数据的合并结果为,e1的id,e1.price为平均,e1.rowtime为开始时间,e3.rowtime为结束时间。且代码中明示e1,e2,e3三个时间的间隔要在2min内完成。严格相邻的三条数据,分别满足1,2,3三个条件,回头看数据中满足的数据为。

2023-03-28 09:40:38 163

原创 即刻设计使用

右边 背景色:加号展开,导出背景色反选掉,眼睛点下设置为屏蔽。2:复制,左上角上传到资源库,新开页面从资源库获取。1:下载:上方按钮 导出所有切片为png。点击元素,选中右边的导出,点击加号。

2023-03-14 13:39:17 319

原创 FlinkCEP(1):复杂事件处理引擎介绍

SKIP TO NEXT ROW -匹配成功之后,从匹配成功的事件序列中的第⼀个事件的下⼀个事件开始进⾏下⼀次匹配。SKIP TO FIRST variable -匹配成功之后,从匹配成功的事件序列中第⼀个对应于变量的事件开始进行下⼀次匹配。SKIP PAST LAST ROW -匹配成功之后,从匹配成功的事件序列中的最后⼀个事件的下⼀个事件开始进⾏下⼀次匹配。{n,m} 在n到m(包含)行之间(0≤n≤m,0 {,m}一在0到m(包含)行之间(m>0){n} 严格n行(n>0)

2023-02-27 17:43:55 465

原创 FlinkSql-滚动窗口-滑动窗口-追加模式/缩进模式

滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。场景:接收通过socket发送过来的数据,每30秒触发一次窗口计算逻辑。(3)从socket端接收数据,并设置30秒触发执行一次窗口运算。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;(2)编写socket代码,模拟数据发送。(1)准备一个实体对象,消息对象。

2023-02-27 16:57:17 645

原创 FlinkSql-UDF

在大多数情况下,用户定义的函数必须先注册,然后才能在查询中使用。不需要专门为Scala 的Table API注册函数。函数通过调用registerFunction()方法在TableEnvironment中注册。当用户定义的函数被注册时,它被插入到TableEnvironment的函数目录中,这样Table API或SQL解析器就可以识别并正确地解释它。

2023-02-27 15:45:26 703

原创 Flink-Checkpoint&Savepoint-任务恢复,任务保障制度

checkpoint是flink job定期做的检测点,savepoint是停止job时人为指定的保存状态目录。老的方式(cancel,以过时),-s指定的是savepoint的目录。新的方式(stop),-p指定的是savepoint的目录。-s指定的是定checkpoint或savepoint目录。savepoint中的状态更新一些。

2023-02-22 17:48:58 839

原创 FlinkSQL对应的数据类型

DECIMAL、DECIMAL(p)、DECIMAL(p, s)、DEC、DEC(p)、DEC(p, s)、NUMERIC、NUMERIC(p)、NUMERIC(p, s):固定长度和精度的数值类型,就和 Java 中的 BigDecima一样,p 代表数值位数(长度),取值范围 [1, 38];BIGINT:-9,223,372,036,854,775,808 to 9,223,372,036,854,775,807 的 8 字节大小的有符号整数,就和 Java 中的 long 一样。

2023-02-21 18:03:11 1769

原创 文件格式对比ORC-Parquet,存储格式对比Gzip-Bzip2-Snappy,Hive和Spark对比

Parquet常用于Impala、Drill、Spark、Arrow;5.处理深层次文件 parquet设计之初就是为了处理嵌套式数据如json。除此之外没有比ORC好太多的地方。impala和spark现在很流行所以parquet存储格式流行。4.orc支持事务表分桶update操作,parquet完全不支持。1.存储文件的压缩比总结:ORC > Parquet。2.存储文件的查询速度总结:查询速度相近,ORC好一点点。3.可兼容的平台:ORC常用于Hive、Presto;

2023-02-14 17:27:25 1419

原创 统计hive-hdfs文件大小日常腾出磁盘

【代码】统计hive-hdfs文件大小日常腾出磁盘。

2023-02-09 17:15:48 444

原创 数据平台权限控制-基于猛犸

每张表的存储路径 如下 hdfs://cluster1/user/jmkx_data/hive_db/jmkx_data.db/ods_plm_newbudget_budgetcostreport_dd。专注本项目的逻辑和代码,不在本项目内的人员无法查看代码逻辑,但是可查询表。其中的jmkx_data是库名也是项目名。可控制筛选框把对应数据开放给对应权限的人。只开放表中的某一部分数据给对应的人员。在hive查询 两种方式都可以。

2023-01-29 10:27:47 476

原创 <<-EOF、whoami、spawn、expect、interact、sudo、su用法

在shell脚本中(bash编程),

2022-12-14 13:24:28 574

原创 Mysql的时间类型选定:Datetime,Timestamp,Bigint

1. 基本区别:2. 其他特性:1. TIMESTAMP是以utc格式存储,会自动检索当前时区对时间进行转换,而DATETIME不会。2. 存入null时,TIMESTAMP会自动存储当前时间,而DATETIME存储null值。3. 时间计算:DATETIME翻译为汉语即"时间戳",它是当前时间到 Unix元年(1970 年 1 月 1 日 0 时 0 分 0 秒)的秒数。

2022-12-02 15:28:28 1069

原创 猛犸优化Summary

同层次的任务最多默认只能启动10个,十个席位空闲出来才能有新的任务执行。

2022-11-23 14:23:55 306

原创 Curl获取GET/POST接口数据然后注入Hive

【代码】Curl获取接口数据然后注入Hive。

2022-11-17 09:57:56 799

原创 大数据平台接入API数据

第一步登记数据源 第二步创建抽数任务 第三步,得到的数据如图 第四步 把数据炸开

2022-11-09 18:17:30 1245

原创 Oracle的Sid和ServiceName和TNS连接方式

Oracle JDBC连接一共有三种方式,分别是:SERVICE_NAME、SID和TNSName。1.SERVICE_NAME方式:jdbc:oracle:thin:@//:/ 2.SID连接方式:jdbc:oracle:thin:@:: 或:jdbc:oracle:thin:@:/3.TNSName连接方式:jdbc:oracle:thin:

2022-11-09 18:09:00 3661

原创 Python处理数据字典Excel成DDL

【代码】Python处理数据字典Excel成DDL。

2022-10-18 13:58:03 647

原创 有数BI开发

度量值-度量列表,根据品规简称细分,不同的度量名称分线。3.图中数字变大:标签 柱子变粗:尺寸。2.筛选器显示内容 树状筛选器。

2022-09-09 13:06:38 346

原创 Flink结合Mysql读写Doris数据

代码】FlinkConnector获取Doris数据。

2022-08-12 11:31:33 1265

原创 演示实时-mysql-flinksql-mysql/doris

代码】演示实时-mysql-flinksql-mysql。

2022-08-09 09:03:25 421

原创 RDBMS索引+联合索引+主键

联合索引单独用第一个也有用,多个用必须有序且全部。

2022-08-05 11:18:57 121

原创 Linux下Doris1.1+Mysql安装启动

查看文件格式vim中 :set ff或者直接file 这个文件名查看centos版本。

2022-08-03 16:15:46 825

原创 Hive的full join

sql里面把某段获取到的最大时间当变量,可fulljoinwhere1=1把那段时间数据(selectmax(dt))放入表中使用再处理。

2022-07-29 11:30:12 1309

原创 Pandas合并DataFrame数据写入Excels

3.concat实现的只是将两个或多个df按行或者案列简单进行拼接的功能,并没有实现sql中的join功能,默认纵向合并。2.pandas中的join方法,相比merge,只是个弟弟,使用场景有限,相当于concat中的方向为1的合并。1.要想实现sql中的join,需要使用merge方法,能指定列key。查看merge多key关联后的结果。最后写出到excel中数据的样子。......

2022-07-27 11:24:37 930

原创 Pandas+sqlalchemy处理Excel-Sql写入文本和数据库

Pycharm中的包安装如下-然后收索install。

2022-07-25 15:14:54 590

原创 Hive添加字段-移动字段

dsadsadas

2022-07-08 13:26:07 1344

原创 Hive日历表

直接创建一个hive表,日历表

2022-07-05 17:46:34 714

原创 Excel中做case when

根据S列的三种值,后面对应1,2,3 函数为=CHOOSE(MATCH(S3,{"季度目标值/3","对应季度目标值","年度目标值/12*N(N=月份)"},),1,2,3)三种中文对应1,2,3

2022-07-04 17:36:36 13026

原创 Excel实用函数Vlookup,多sheet之间多字段的匹配取值

需要取出sheet2中的main_code到sheet1,匹配规则是两边的 data_type+date_level能够匹配上。所以做了一个辅助列,把两个字段拼接起来。PS:F拿出来值了 F为 =C2 下拉到底=C2&D2 在sheet1也做了一个辅助列做匹配 =VLOOKUP(E3,Sheet2!E:F,2,0) E3 两张表中根据什么字段匹配(需要表头一致的,不然需要需要match) Sheet2!E

2022-07-04 16:49:55 6365

原创 会计科目分类

会计科目按其反映的经济内容不同,可分为资产类、负债类、所有者权益类、损益类、共同类和成本类六种。①资产类科目。包括流动资产和非流动资产的科目,流动资产包括:库存现金、银行存款、应收账款、原材料、库存商品等;非流动资产包括:长期股权投资、长期应收款、固定资产、在建工程、无形资产等。②负债类科目。包括流动负债和非流动负债的科目。其中流动负债包括短期借款、应付账款、应付职工薪酬、应交税费等:非流动负债包括:长期借款、应付债券、长期应付款等。③所有者权益类科目。包括实收资本、资本公积、盈余公积、本年利润和利润分配等

2022-06-27 17:42:39 373

原创 Flink实时风控相关

rader 项目是springboot的,可以做风控flinkadmin是flink的 用的 flink13和cdc2,不会先全量后增量的过程导致锁表

2022-06-24 14:31:55 457

原创 自定义UDF函数进行敏感字段加密解密

需求 一些用户数据中包含诸如用户手机号等信息,直接暴露出来的话,是违法的。。。需要对数据进行脱敏,如果单纯的将手机号替换为***号,那么就意味着丢失用户的手机号数据了,因为无法再将***变回手机号。所以需要自定义UDF函数,实现敏感数据的加密解密。 这里实现了两个UDF函数,一个用于加密,一个用于解密。使用Java自带的crypto模块实现AES加密。 在代码中将两个UDF函数中的SecureRandom的Seed写死,这样加密后的数据就是固定的,可以通过解密UDF解析

2022-06-17 13:06:59 1158

原创 Oracle的实时-表函数

CREATE OR REPLACE TYPE RPT_E_COMMERCE_CUSTOMER_DETAIL_ROW AS OBJECT( DEPT_ID VARCHAR2(255) --事业部ID ,DEPT_NM VARCHAR2(255) --事业部名称 ,PROJ_ID VARCHAR2(255) .

2022-04-21 15:18:39 858

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除