自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(323)
  • 收藏
  • 关注

原创 数据平台权限控制-基于猛犸

每张表的存储路径 如下 hdfs://cluster1/user/jmkx_data/hive_db/jmkx_data.db/ods_plm_newbudget_budgetcostreport_dd。专注本项目的逻辑和代码,不在本项目内的人员无法查看代码逻辑,但是可查询表。其中的jmkx_data是库名也是项目名。可控制筛选框把对应数据开放给对应权限的人。只开放表中的某一部分数据给对应的人员。在hive查询 两种方式都可以。

2023-01-29 10:27:47 29

原创 <<-EOF、whoami、spawn、expect、interact、sudo、su用法

在shell脚本中(bash编程),

2022-12-14 13:24:28 30

原创 Mysql的时间类型选定:Datetime,Timestamp,Bigint

1. 基本区别:2. 其他特性:1. TIMESTAMP是以utc格式存储,会自动检索当前时区对时间进行转换,而DATETIME不会。2. 存入null时,TIMESTAMP会自动存储当前时间,而DATETIME存储null值。3. 时间计算:DATETIME翻译为汉语即"时间戳",它是当前时间到 Unix元年(1970 年 1 月 1 日 0 时 0 分 0 秒)的秒数。

2022-12-02 15:28:28 457

原创 猛犸优化Summary

同层次的任务最多默认只能启动10个,十个席位空闲出来才能有新的任务执行。

2022-11-23 14:23:55 56

原创 Curl获取接口数据然后注入Hive

【代码】Curl获取接口数据然后注入Hive。

2022-11-17 09:57:56 428

原创 大数据平台接入API数据

第一步登记数据源 第二步创建抽数任务 第三步,得到的数据如图 第四步 把数据炸开

2022-11-09 18:17:30 510

原创 Oracle的Sid和ServiceName和TNS连接方式

Oracle JDBC连接一共有三种方式,分别是:SERVICE_NAME、SID和TNSName。1.SERVICE_NAME方式:jdbc:oracle:thin:@//:/ 2.SID连接方式:jdbc:oracle:thin:@:: 或:jdbc:oracle:thin:@:/3.TNSName连接方式:jdbc:oracle:thin:

2022-11-09 18:09:00 534

原创 Python处理数据字典Excel成DDL

【代码】Python处理数据字典Excel成DDL。

2022-10-18 13:58:03 256

原创 有数BI开发

度量值-度量列表,根据品规简称细分,不同的度量名称分线。3.图中数字变大:标签 柱子变粗:尺寸。2.筛选器显示内容 树状筛选器。

2022-09-09 13:06:38 73

原创 Flink结合Mysql读写Doris数据

代码】FlinkConnector获取Doris数据。

2022-08-12 11:31:33 493

原创 演示实时-mysql-flinksql-mysql

代码】演示实时-mysql-flinksql-mysql。

2022-08-09 09:03:25 209

原创 RDBMS索引+联合索引+主键

联合索引单独用第一个也有用,多个用必须有序且全部。

2022-08-05 11:18:57 26

原创 Linux下Doris1.1+Mysql安装启动

查看文件格式vim中 :set ff或者直接file 这个文件名查看centos版本。

2022-08-03 16:15:46 281

原创 Hive的full join

sql里面把某段获取到的最大时间当变量,可fulljoinwhere1=1把那段时间数据(selectmax(dt))放入表中使用再处理。

2022-07-29 11:30:12 856

原创 Pandas合并DataFrame数据写入Excels

3.concat实现的只是将两个或多个df按行或者案列简单进行拼接的功能,并没有实现sql中的join功能,默认纵向合并。2.pandas中的join方法,相比merge,只是个弟弟,使用场景有限,相当于concat中的方向为1的合并。1.要想实现sql中的join,需要使用merge方法,能指定列key。查看merge多key关联后的结果。最后写出到excel中数据的样子。......

2022-07-27 11:24:37 395

原创 Pandas+sqlalchemy处理Excel-Sql写入文本和数据库

Pycharm中的包安装如下-然后收索install。

2022-07-25 15:14:54 301

原创 Hive添加字段-移动字段

dsadsadas

2022-07-08 13:26:07 575

原创 Hive日历表

直接创建一个hive表,日历表

2022-07-05 17:46:34 220

原创 Excel中做case when

根据S列的三种值,后面对应1,2,3 函数为=CHOOSE(MATCH(S3,{"季度目标值/3","对应季度目标值","年度目标值/12*N(N=月份)"},),1,2,3)三种中文对应1,2,3

2022-07-04 17:36:36 3123

原创 Excel实用函数Vlookup,多sheet之间多字段的匹配取值

需要取出sheet2中的main_code到sheet1,匹配规则是两边的 data_type+date_level能够匹配上。所以做了一个辅助列,把两个字段拼接起来。PS:F拿出来值了 F为 =C2 下拉到底=C2&D2 在sheet1也做了一个辅助列做匹配 =VLOOKUP(E3,Sheet2!E:F,2,0) E3 两张表中根据什么字段匹配(需要表头一致的,不然需要需要match) Sheet2!E

2022-07-04 16:49:55 1711

原创 会计科目分类

会计科目按其反映的经济内容不同,可分为资产类、负债类、所有者权益类、损益类、共同类和成本类六种。①资产类科目。包括流动资产和非流动资产的科目,流动资产包括:库存现金、银行存款、应收账款、原材料、库存商品等;非流动资产包括:长期股权投资、长期应收款、固定资产、在建工程、无形资产等。②负债类科目。包括流动负债和非流动负债的科目。其中流动负债包括短期借款、应付账款、应付职工薪酬、应交税费等:非流动负债包括:长期借款、应付债券、长期应付款等。③所有者权益类科目。包括实收资本、资本公积、盈余公积、本年利润和利润分配等

2022-06-27 17:42:39 132

原创 Flink实时风控相关

rader 项目是springboot的,可以做风控flinkadmin是flink的 用的 flink13和cdc2,不会先全量后增量的过程导致锁表

2022-06-24 14:31:55 188

原创 自定义UDF函数进行敏感字段加密解密

需求 一些用户数据中包含诸如用户手机号等信息,直接暴露出来的话,是违法的。。。需要对数据进行脱敏,如果单纯的将手机号替换为***号,那么就意味着丢失用户的手机号数据了,因为无法再将***变回手机号。所以需要自定义UDF函数,实现敏感数据的加密解密。 这里实现了两个UDF函数,一个用于加密,一个用于解密。使用Java自带的crypto模块实现AES加密。 在代码中将两个UDF函数中的SecureRandom的Seed写死,这样加密后的数据就是固定的,可以通过解密UDF解析

2022-06-17 13:06:59 467

原创 Oracle的实时-表函数

CREATE OR REPLACE TYPE RPT_E_COMMERCE_CUSTOMER_DETAIL_ROW AS OBJECT( DEPT_ID VARCHAR2(255) --事业部ID ,DEPT_NM VARCHAR2(255) --事业部名称 ,PROJ_ID VARCHAR2(255) .

2022-04-21 15:18:39 728

原创 FlinkSQL水位和开窗

import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment; /**.

2022-04-21 09:00:56 367

原创 Sparksql操作Hudi

每次使用或者建表后要refresh db,和refresh tablename;

2022-04-18 18:29:36 2042

原创 Flink操作Hudi-工作实践

package org.example.hudi;import org.apache.flink.runtime.state.filesystem.FsStateBackend;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.tab..

2022-04-14 11:50:15 1813

原创 Hbase基础操作/Phoenix操作-二者差异

在hbase hbase shell 进入命令行//下面操作一定要带上引号drop 't1' 删除表# 获取整个表的值scan 'flinkcdcresult1'disable 'FLINKCDCRESULT' drop 'FLINKCDCRESULT' 禁用后才能删除表create 'FLINKCDCRESULT', {NAME=>'f'}--增加数据put'FLINKCDCRESULT', '001','f:times','13309882999.

2022-03-28 17:29:47 295

原创 FlinkCDC写入kafka计算后写入写出hbase-工作实例

POM文件<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this fileto you.

2022-03-25 18:15:28 2569

原创 Idea配合git做版本控制

拉代码file-new-project from version control 填入自己的仓库地址即可,把代码拉到本地的一个空文件夹内然后把自己项目的所有代码复制到这个空的项目的文件夹下覆盖掉,这样本地仓库就初始化了传代码控制每次上传不要的代码文件里面不要.iml的文件可以这么写/.idea//.iml/上传然后去网页看自己的提交是否成功即可...

2022-03-17 14:03:50 554

原创 MockKafka数据Flink消费写入Mysql/Oralce-工作实例

首先看pom<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this fileto you

2022-03-17 10:56:07 991

原创 pom寻找依赖

https://developer.aliyun.com/mvn/search根据artifactId找自己需要的版本的包在这里的依赖就可根据这个网站在阿里云仓库找到需要的依赖蓝字点进去

2022-03-16 12:55:48 488

原创 快速启动flink项目

按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Create from archetype----Add Archetype弹出框:GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype,点Next填写你要创建的这个flink demo的GroupId,ArtifactId,Version,点击

2022-03-15 11:05:38 1431

原创 清除maven的lastUpdate文件

@echo offset REPOSITORY_PATH=D:\WorkSpace\maven\mavenrepositoryrem 正在搜索...for /f "delims=" %%i in ('dir /b /s "%REPOSITORY_PATH%\*lastUpdated*"') do ( del /s /q %%i)rem 搜索完毕pause将上面写入txt文件,再把后缀改成bat提供一个非常好用的windows下开发的bat脚本,由于经常下载Jar包时,网.

2022-03-14 15:13:44 1117

原创 链表反转-迭代和递归

要求很简单,输入一个链表,反转链表后,输出新链表的表头。  反转链表是有2种方法(递归法,遍历法)实现的,面试官最爱考察的算法无非是斐波那契数列和单链表反转,递归方法实现链表反转比较优雅,但是对于不了解递归的同学来说还是有理解难度的。遍历法遍历法就是在链表遍历的过程中将指针顺序置换...

2022-03-13 14:22:06 109

原创 L1:数组和链表

数组Array:内存中一段连续存储空间int a=new Array[100];数组基本特征: 支持随机访问数组的关键 索引和寻址时间复杂度 因为有索引,尾部追加和查询都是复杂度为O(1),其他操作为O(n)变长数组 :ArrayList链表...

2022-03-02 09:31:46 228

原创 SparkShell操作Hudi

使用环境 cdh 6.3.2 spark 2.4.0 hudi 0.9使用sparkShell连接hudi/opt/cloudera/parcels/CDH/lib/spark/bin/spark-shell \ --jars ./hudi-spark-bundle_2.11-0.9.0.jar \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'创建表import org....

2022-03-01 10:06:12 144

原创 GitHub使用 IDea配合GitLab使用

安装Git,初始化仓库并作简单配置https://git-scm.com/downloads下载完后双击打开,再双击pkg文件 输入git --version出现版本代表成功 mkdir learn_git 创建自己的项目 cd learn_git ls -al 查看所有目录 git init 初始化这个git ls -al 发现多了 .git文件 git config --global user.name "Geek" 创建用户名再回车 git config --glob...

2022-02-28 10:24:47 108

原创 时间空间复杂度

大O表示法忽略常数,只看最高复杂度的运算。比如一个for循环,循环1次和10次都是O(1)(不看常数的)O(n)和O(10n)都是O(n),O(n^2+n)就是O(n^2)O(1) O(log(n)) O(n) O(n^2) O(2^n) O(n!)O(log(n))没有底数:底下能推出来一个常数。根据换底公式下面能换出来一个常数忽略常数,所以以2为底和以3为底一样的没区别举例首先声明:LeeCode认为 一亿下计算大概1sO(1)int n = 10.

2022-02-28 10:24:34 202

原创 UDF获取最新分区

获取最新分区<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version

2022-02-26 16:05:46 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除