自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 收藏
  • 关注

原创 正则表达式-使用笔记

正则表达式使用不当,会导致CPU飙升;

2024-07-06 18:03:16 267

原创 yarn使用笔记

一、 REST API一、 REST API。

2024-07-04 15:51:37 174

原创 shell文件操作

二、Linux Sed命令。

2024-07-04 10:30:38 130

原创 数据比对总结

比如pkgs数组字段有大量空值,row_number方式排序去重(rnk=1)前没有过滤pkgs为空的数据,这样获取了许多pkgs为空的数据,导致展开数组时会丢失有效数据.first、last函数会随机取维度值, 造成这些维度指标不完全一样, 可验证其它维度上指标是否一致.过滤掉了无效数据, 保留下了更过的有效数据;

2023-10-11 20:46:15 206

原创 排查数据问题笔记

无用的数据没有提前过滤;没有充分利用索引或分区;索引或分区失效;

2023-10-10 09:58:16 194

原创 spark的数据扩展

会导致数据扩展的操作;如何避免数据扩展;

2023-09-25 18:50:47 539

原创 spark操作map数据

【代码】spark操作map数据。

2023-09-25 15:34:04 183

原创 spark集群问题汇总

2. 加大资源, 增加excutor的数量, 分散压力。2. 应用本身数据量大。1. 严重的数据倾斜。

2023-09-06 20:37:39 384

原创 spark内置函数笔记

spark常用的内置函数。

2023-08-29 15:10:13 359

原创 spark的eventLog日志分析

【代码】spark的eventLog日志分析。

2023-08-22 18:33:15 743

原创 日志解析方法汇总

各种样式的原始日志的解析方法.

2023-08-14 19:33:19 264

原创 hive的metastore问题汇总

当Spark任务无法获取足够资源时,因为任务无法继续进行,不能将元数据从Metastore返回给任务。这种情况下,如果Metastore的内存不断累积,可能会导致内存占用过高,进而影响系统的稳定性。spark集群提交的任务无法运行, 只申请到了dirver的资源;后,这些元数据暂存在Metastore中;metastore内存飙升降不下来;

2023-07-31 11:38:58 689 1

原创 spark-小文件优化

1. 缓存数据源分区文件信息spark.sql.hive.filesourcePartitionFileCacheSize由于小文件产生的spark job performance问题 - 简书

2023-06-15 09:29:09 363 1

原创 spark的任务分析

spark任务的设定参数

2023-06-13 16:26:54 128

原创 阿里云oss存储

阿里云对象存储的便捷操作

2023-05-25 19:51:43 377

原创 获取hive表信息

获取hive的表结构信息:表owner、表location。

2023-05-14 11:12:01 370

原创 大数据存储治理

降低数据的存储成本。

2023-05-07 13:35:14 167

原创 hive元数据库rds查询

查询元数据信息

2023-01-18 17:40:45 910

原创 hadoop学习笔记

hadoop相关命令、常用脚本参考

2022-07-12 11:43:02 38

原创 spark参数说明及优化

合理并行度set spark.default.parallelism=72;set spark.sql.shuffle.partitions=72;资源动态分配set spark.dynamicAllocation.enabled=false;推测机制set spark.speculation=true;set spark.speculation.interval=50000;set spark.speculation.quantile=0.95;s...

2022-05-26 16:22:06 1373

原创 数仓降本增效

提示:数仓降本增效的一些方法。

2022-05-21 15:42:32 103

原创 数仓任务优化

提示:上游任务优化、当前任务优化、下游任务优化和相关环境优化,全链路优化任务。模型优化1. 缩减字段1) 中英文都有的字段, 只保留英文;2) 去掉不常用且可以通过现有字段关联得到的字段;2. 全量表优化1) 如何合并增量数据;2) 过滤掉失活数据;3)3. 维表的字段尽量在最后一步关联码表.........

2022-05-21 09:48:37 1607

原创 批操作hive

一、添加分区一、添加分区目录不存在时,会生成空目录;防止生成空目录。

2022-05-19 22:05:12 627

原创 调度系统使用注意事项

1 计算新增的任务这种任务前后有依赖关系, 必须串行顺序执行;1 必须打开依赖历史的设置;2 补数据时必须串行顺序执行;

2022-04-22 14:31:19 297

原创 flink读写kafka

1 读kafka参考代码/** * flink-sql形式读取(flink1.14支持多个topic), 适合json格式统一的情况 */def readKafka(tab_env: StreamTableEnvironment, topics: String, servers: String, group_id: String): Unit = { // 连接kafka val kafka_view = s""" |CREATE TABLE

2022-04-11 21:00:30 3423

原创 flink读写filesystem

1 flink-sql写parquet格式1 参考链接Parquet | Apache FlinkParquetOutputFormat - parquet-hadoop 1.10.0 javadocFileSystem | Apache Flink注意: 多个链接要结合起来看2 连接文件系统CREATE TABLE test_fs_table ( iid STRING, local_time TIMESTAMP, dt STRING, dh STRING

2022-04-06 18:24:34 2740

原创 flink相关优化

1 小文件优化并行度回滚时间文件大小checkpointcompact

2022-04-02 10:51:31 2071

原创 flink问题汇总

1 本地运行, 写出parquet报错, 而json没有问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/ConfigurationCaused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration2 flink输出日志设置1. 无法加载类SLF4J: Failed to l

2022-03-29 22:38:09 2804

原创 flink本地运行及访问webui

1 webui的依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_2.11</artifactId> <version>${flink.version}</version> <scope>${scope.type}</scope></depend

2022-03-29 18:36:16 5094 1

原创 开发环境配置

1 jdk安装JDK下载与安装详细步骤_雪佳菇娘的博客-CSDN博客_jdk安装步骤

2022-03-23 22:47:56 394

原创 flink-sql实现多个insert语句一起执行

1 问题背景使用flink-sql开发, 当多个insert分别写出时, 生成了多个job, 每个job都在yarn上启动了一个应用,flink的per-job模式,一个job就会申请一次资源.-2 问题解决// 创建语句集val stmtSet = tab_env.createStatementSet// 增加insert语句stmtSet.addInsertSql("insert_01")stmtSet.addInsertSql("insert_02")// 执行多个

2022-03-23 17:03:34 7435 2

原创 数据质量提升

1 连续下降1.1 对比上个周期连续下降select count(1)from ( select dh, sum(go_in) as cnt from check_data_v2.dws_pts_athena_server_check_hi where concat(dt,dh) >= '$[yyyymmddhh24-3/2

2022-03-17 17:48:09 817

原创 读取配置和变量

1 读取properties文件方法不同, 能读取的文件路径和文件类型也不同。Java 读取 .properties 配置文件的几种方式 - 暴脾气大大 - 博客园-1.1 scala语言读取1)读取任意路径下的properties文件import java.io.{BufferedReader, FileReader}import java.util.Properties/** * 读取任意路径下的properties文件 * */object ConfManag.

2022-03-16 21:24:09 895

原创 处理json字符串

1 获取json串中的key值1.1 java方式import com.alibaba.fastjson.JSON;import java.util.HashMap;public class JsonTool { /** * * @param json_str 传入的json串 * @return json串最外层的key */ public static Object[] getKeys(String json_str) {

2022-03-08 16:40:23 506

原创 Flink操作json数据

1 kafka中的json数据关键词:json、嵌套、复杂结构、Map、Array、Row1. Flink SQL 解析嵌套的 JSON 数据_JasonLee_后厂村程序员-CSDN博客2 内置json函数1. 官方文档​​​​​​​System (Built-in) Functions | Apache Flink2. 函数使用JSON_VALUE('{"a":}', '$.a') --> nullJSON_VALUE('{"a":""}', '$.a')..

2022-03-02 20:56:26 5923

原创 excel使用笔记

excle使用经验、常用函数

2022-02-25 14:26:38 183

原创 flink学习笔记

1 依赖设置1 scala的基本依赖设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/

2022-02-23 21:50:58 1268

原创 待整理内容

java经典面试题https://mp.weixin.qq.com/s/vRHPWFDweuEmIv9Y0zHtog详解数据仓库数据指标数据治理体系建设方法论https://baijiahao.baidu.com/s?id=1714551946309631156&wfr=spider&for=pc

2022-01-11 20:41:00 198

原创 airflow使用汇总

1 airflow分支Airflow的BranchPythonOperator如何工作---

2021-12-09 15:38:59 886

原创 airflow依赖上游设置

1 周表依赖与天表1 只依赖上周的最后一天# 获取上周最后一天的日期def getTrueWeek(ds): import datetime # 循环到本周末 while ds.weekday() != 6: ds += datetime.timedelta(days=1) # 格式化到上游的定时 return ds.replace(hour=23, minute=10, second=0) from airflow.sensors

2021-12-09 11:38:19 1071

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除