shy_01-CSDN博客

原创 hadoop的api操作对象存储

2. 获取某个目录下的子目录。1. 获取某个目录下的文件。

2025-09-11 11:39:13 198

原创对象存储 - 同步数据

通过AK从源s3路径同步数据到本地, 再从本地上传到指定目的s3路径。

2025-09-02 15:38:12 163

原创正则表达式-使用笔记

正则表达式使用不当，会导致CPU飙升；

2024-07-06 18:03:16 450

原创 Yarn使用笔记

一、 REST API一、 REST API。

2024-07-04 15:51:37 443

原创数据比对总结

比如pkgs数组字段有大量空值，row_number方式排序去重(rnk=1)前没有过滤pkgs为空的数据，这样获取了许多pkgs为空的数据，导致展开数组时会丢失有效数据.first、last函数会随机取维度值, 造成这些维度指标不完全一样, 可验证其它维度上指标是否一致.过滤掉了无效数据, 保留下了更过的有效数据;

2023-10-11 20:46:15 339

原创排查数据问题笔记

无用的数据没有提前过滤;没有充分利用索引或分区;索引或分区失效;

2023-10-10 09:58:16 407

原创 spark的数据扩展

会导致数据扩展的操作;如何避免数据扩展;

2023-09-25 18:50:47 706

原创 spark操作map数据

【代码】spark操作map数据。

2023-09-25 15:34:04 322

原创 spark集群问题汇总

2. 加大资源, 增加excutor的数量, 分散压力。2. 应用本身数据量大。1. 严重的数据倾斜。

2023-09-06 20:37:39 619

原创 spark的eventLog日志分析

【代码】spark的eventLog日志分析。

2023-08-22 18:33:15 1111

原创 hive的metastore问题汇总

当Spark任务无法获取足够资源时，因为任务无法继续进行，不能将元数据从Metastore返回给任务。这种情况下，如果Metastore的内存不断累积，可能会导致内存占用过高，进而影响系统的稳定性。spark集群提交的任务无法运行, 只申请到了dirver的资源;后，这些元数据暂存在Metastore中;metastore内存飙升降不下来;

2023-07-31 11:38:58 892 1

原创 spark-小文件优化

1. 缓存数据源分区文件信息spark.sql.hive.filesourcePartitionFileCacheSize由于小文件产生的spark job performance问题 - 简书

2023-06-15 09:29:09 766 1

原创获取hive表信息

获取hive的表结构信息：表owner、表location。

2023-05-14 11:12:01 493

合理并行度set spark.default.parallelism=72;set spark.sql.shuffle.partitions=72;资源动态分配set spark.dynamicAllocation.enabled=false;推测机制set spark.speculation=true;set spark.speculation.interval=50000;set spark.speculation.quantile=0.95;s...

2022-05-26 16:22:06 2583

原创数仓降本增效

提示：数仓降本增效的一些方法。

2022-05-21 15:42:32 213

原创数仓任务优化

摘要：本文系统介绍了数据全链路优化策略，涵盖模型、逻辑、环境、调度等维度。模型优化包括字段精简、存储格式选择、维表关联策略等；逻辑优化重点解决数据倾斜、计算顺序、参数配置等问题；环境优化涉及硬件资源配置、任务调度策略等；同时强调上下游协同优化。通过合理的存储结构设计、高效计算逻辑实现、资源优化配置，可全面提升数据处理性能与效率。文末建议优化后需进行测试验证并清理冗余数据。

2022-05-21 09:48:37 2228

原创 shell脚本操作hive

一、添加分区一、添加分区目录不存在时，会生成空目录；防止生成空目录。

2022-05-19 22:05:12 920

原创调度系统使用注意事项

1 计算新增的任务这种任务前后有依赖关系, 必须串行顺序执行;1 必须打开依赖历史的设置;2 补数据时必须串行顺序执行;

2022-04-22 14:31:19 397

原创 flink读写kafka

1 读kafka参考代码/** * flink-sql形式读取(flink1.14支持多个topic), 适合json格式统一的情况 */def readKafka(tab_env: StreamTableEnvironment, topics: String, servers: String, group_id: String): Unit = { // 连接kafka val kafka_view = s""" |CREATE TABLE

2022-04-11 21:00:30 3546

原创 flink读写filesystem

1 flink-sql写parquet格式1 参考链接Parquet | Apache FlinkParquetOutputFormat - parquet-hadoop 1.10.0 javadocFileSystem | Apache Flink注意: 多个链接要结合起来看2 连接文件系统CREATE TABLE test_fs_table ( iid STRING, local_time TIMESTAMP, dt STRING, dh STRING

2022-04-06 18:24:34 2993

原创 flink相关优化

1 小文件优化并行度回滚时间文件大小checkpointcompact

2022-04-02 10:51:31 2174

原创 flink问题汇总

1 本地运行, 写出parquet报错, 而json没有问题Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/ConfigurationCaused by: java.lang.ClassNotFoundException: org.apache.hadoop.conf.Configuration2 flink输出日志设置1. 无法加载类SLF4J: Failed to l

2022-03-29 22:38:09 2896

原创 flink本地运行及访问webui

1 webui的依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-runtime-web_2.11</artifactId> <version>${flink.version}</version> <scope>${scope.type}</scope></depend

2022-03-29 18:36:16 5716 1

原创开发环境配置

1 jdk安装JDK下载与安装详细步骤_雪佳菇娘的博客-CSDN博客_jdk安装步骤

2022-03-23 22:47:56 443

原创 flink-sql实现多个insert语句一起执行

1 问题背景使用flink-sql开发, 当多个insert分别写出时, 生成了多个job, 每个job都在yarn上启动了一个应用,flink的per-job模式，一个job就会申请一次资源.-2 问题解决// 创建语句集val stmtSet = tab_env.createStatementSet// 增加insert语句stmtSet.addInsertSql("insert_01")stmtSet.addInsertSql("insert_02")// 执行多个

2022-03-23 17:03:34 8217 2

原创数据质量提升

1 连续下降1.1 对比上个周期连续下降select count(1)from ( select dh, sum(go_in) as cnt from check_data_v2.dws_pts_athena_server_check_hi where concat(dt,dh) >= '$[yyyymmddhh24-3/2

2022-03-17 17:48:09 952

原创读取配置和变量

1 读取properties文件方法不同，能读取的文件路径和文件类型也不同。Java 读取 .properties 配置文件的几种方式 - 暴脾气大大 - 博客园-1.1 scala语言读取1）读取任意路径下的properties文件import java.io.{BufferedReader, FileReader}import java.util.Properties/** * 读取任意路径下的properties文件 * */object ConfManag.

2022-03-16 21:24:09 998

原创处理json字符串

1 获取json串中的key值1.1 java方式import com.alibaba.fastjson.JSON;import java.util.HashMap;public class JsonTool { /** * * @param json_str 传入的json串 * @return json串最外层的key */ public static Object[] getKeys(String json_str) {

2022-03-08 16:40:23 563

原创 Flink操作json数据

1 kafka中的json数据关键词：json、嵌套、复杂结构、Map、Array、Row1. Flink SQL 解析嵌套的 JSON 数据_JasonLee_后厂村程序员-CSDN博客2 内置json函数1. 官方文档System (Built-in) Functions | Apache Flink2. 函数使用JSON_VALUE('{"a":}', '$.a') --> nullJSON_VALUE('{"a":""}', '$.a')..

2022-03-02 20:56:26 6567

原创 excel使用笔记

excle使用经验、常用函数

2022-02-25 14:26:38 231

原创 flink学习笔记

1 依赖设置1 scala的基本依赖设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/

2022-02-23 21:50:58 1441

空空如也

空空如也