大卜萝-CSDN博客

原创 spark sql任务提交参数相关

–conf spark.sql.adaptive.enabled=true\ 开启shfffer解决小文件问题–conf spark.sql.adaptive.minNumPostShufflePartitions=10–conf spark.sql.adaptive.maxNumPostShufflePartitions=2000–conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize 134217728–conf spark.sql.

2023-10-19 15:19:04 148

原创网络基础部分

time_wait 相关参数配置： net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_max_tw_buckets = 5000net.ipv4.tcp_max_syn_backlog = 8192net.ipv4.tcp_keepalive_time = 1200net.ipv4.ip_local_port_range = 1024 65000net.i

2023-10-19 15:18:37 137

原创 spark 任务调试指南

一、有明确报错信息：二、无明确报错信息：查看是否类名错误或者没有类名spark 任务执行中是否有位置不合适的spark.stop() 方法存在。

2023-10-19 15:14:15 177

原创 kafka数据问题

数据一致性和数据可用性可能导致数据丢失的场景1、最少同步副本数min.insync.replice = 个人推荐：副本数 - 1 kafka 认为当消息发送到所有同步副本的时候会才会提交数据。当此副本变为不可以用的时候就会导致数据丢失。...

2023-10-19 15:13:23 104

原创工具记录hive sql 函数 udf、mysql 权限修改（连接jdbc）、java日期计算

val ca = Calendar.getInstance();// 得到一个Calendar的实例ca.setTime(new Date()); // 设置时间为当前时间// ca.set(2011, 11, 17);// 月份是从0开始的，所以11表示12月ca.add(Calendar.YEAR, -1); // 年份减1ca.add(Calendar.MONTH, -1);// 月份减1ca.add(Calendar.DATE, -1);// 日期减1val resultDate

2023-10-19 15:12:43 138

原创 linux 汇集

需要在节点A生产密匙对发送公私到节点B。然后就可以在在A免密登录B。

2023-10-19 15:09:23 79

原创 windos

2、以下目录可以放快捷方式，也可以放 .bat 脚本文件（此方法不区分用户）windos在开机以后会自动自动执行一次该目录下程序。start /d “路径” 快捷方式的名字。

2023-10-19 15:01:21 137

原创将 jar 包发布到本地 Maven 仓库的步骤如下

maven jar包发布到本地

2023-05-30 10:47:09 1833

原创 windos 网络异常问题

windos 网络问题

2022-08-17 11:30:34 324

原创 python环境问题

自己总结一些的问题处理办法

2022-08-17 11:05:39 2016

原创 clickhouse 问题处理

分析：可能是cklichouse存在的bug问题，创建表的时候认为库名加表名，但是在使用spark 写入的时候，表名择成为：{库名.表名}这样的一个表，从而找不到表，提示语法错误。ENGINE=Distributed(集群, 库名,库名.表名,分布方式)解决：创建分布表的时候指定的时候不能加库名。

2022-01-17 11:12:23 695

原创 kylin知识总结

点击model - new model(只支持星型模型)定义模型：即那个是你的事实表（fact table）（），那个是你的维度表（look up table）使用衍生维度会需要在查询衍生维度的指标的时候跑聚合，因此会变慢，所以需要考虑使用的衍生维度和聚合任务的均衡问题。基数大的放最基数小的前面（由于在做集合的时候使用的结果都是选用cubeid id 差的小的进行聚合）的星型模型通过手动指定需要分析的维度把分析结果储存到。hbase 的region的数量的优化（通过调参的方式）

2021-07-23 22:49:36 245 1

原创机器学习学习总结（持续更新）

机器学习：介绍1、分析数据获得一个模型2、使用模型对未知数据预测语言选择：python#mermaid-svg-CftrxpewrPCLApNk .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-CftrxpewrPCLApNk .label text{fill:#333}#mermaid-svg-Cft

2021-07-17 19:41:03 514

卜萝的博客