自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 spark sql任务提交参数相关

–conf spark.sql.adaptive.enabled=true\ 开启shfffer解决小文件问题–conf spark.sql.adaptive.minNumPostShufflePartitions=10–conf spark.sql.adaptive.maxNumPostShufflePartitions=2000–conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize 134217728–conf spark.sql.

2023-10-19 15:19:04 59

原创 网络基础部分

time_wait 相关参数配置: net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_max_tw_buckets = 5000net.ipv4.tcp_max_syn_backlog = 8192net.ipv4.tcp_keepalive_time = 1200net.ipv4.ip_local_port_range = 1024 65000net.i

2023-10-19 15:18:37 37

原创 spark 任务调试指南

一、有明确报错信息:二、无明确报错信息:查看是否类名错误或者没有类名spark 任务执行中是否有位置不合适的spark.stop() 方法存在。

2023-10-19 15:14:15 49

原创 kafka数据问题

数据一致性和数据可用性可能导致数据丢失的场景1、最少同步副本数min.insync.replice = 个人推荐: 副本数 - 1 kafka 认为当消息发送到所有同步副本的时候会才会提交数据。当此副本变为不可以用的时候就会导致数据丢失。...

2023-10-19 15:13:23 31

原创 工具记录hive sql 函数 udf、mysql 权限修改 (连接jdbc)、java日期计算

val ca = Calendar.getInstance();// 得到一个Calendar的实例ca.setTime(new Date()); // 设置时间为当前时间// ca.set(2011, 11, 17);// 月份是从0开始的,所以11表示12月ca.add(Calendar.YEAR, -1); // 年份减1ca.add(Calendar.MONTH, -1);// 月份减1ca.add(Calendar.DATE, -1);// 日期减1val resultDate

2023-10-19 15:12:43 42

原创 linux 汇集

需要在节点A生产密匙对 发送 公私到节点B。然后就可以在在A免密登录B。

2023-10-19 15:09:23 24

原创 windos

2、以下目录可以放快捷方式,也可以放 .bat 脚本文件 (此方法不区分用户)windos在开机以后会自动自动执行一次该目录下程序。start /d “路径” 快捷方式的名字。

2023-10-19 15:01:21 29

原创 将 jar 包发布到本地 Maven 仓库的步骤如下

maven jar包发布到本地

2023-05-30 10:47:09 1624

原创 windos 网络异常问题

windos 网络问题

2022-08-17 11:30:34 250

原创 python环境问题

自己总结一些的问题处理办法

2022-08-17 11:05:39 1434

原创 clickhouse 问题处理

分析:可能是cklichouse存在的bug问题,创建表的时候认为库名加表名,但是在使用spark 写入的时候,表名择成为:{库名.表名}这样的一个表,从而找不到表,提示语法错误。ENGINE=Distributed(集群, 库名,库名.表名,分布方式)解决:创建分布表的时候 指定的时候不能加库名。

2022-01-17 11:12:23 432

原创 kylin知识总结

点击model - new model(只支持星型模型)定义模型:即那个是你的事实表(fact table)(),那个是你的维度表(look up table)使用衍生维度会需要在查询衍生维度的指标的时候跑聚合,因此会变慢,所以需要考虑使用的衍生维度和聚合任务的均衡问题。基数大的放最基数小的前面 (由于在做集合的时候使用的结果都是选用cubeid id 差的小的进行聚合)的星型模型 通过手动指定需要分析的维度 把分析结果储存到。hbase 的region的数量的优化(通过调参的方式)

2021-07-23 22:49:36 170 1

原创 机器学习学习总结(持续更新)

机器学习:介绍1、分析数据获得一个模型2、使用模型对未知数据预测语言选择:python#mermaid-svg-CftrxpewrPCLApNk .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-CftrxpewrPCLApNk .label text{fill:#333}#mermaid-svg-Cft

2021-07-17 19:41:03 451

原创 spark sql 和 spark streaming 结合使用

需要一个构建session单例的类(由于session 存在driver 为一个单例所以需要此类):object SparkSessionSingleton { @transient private var instance: SparkSession = _ def getInstance(sparkConf: SparkConf): SparkSession = { if (instance == null) { instance = SparkSession

2021-06-24 09:49:52 234

原创 spark -sql 相关

spark sql 的 df 的行转列的api:输入数据:例如note idn1 2,3,4n2 3,4,5,6输出数据:note idn1 2n1 3…操作:sql 操作 -》 使用split进行切割;val sql = ” select split(id ,',')paersonId from table1 “val split = session.sqlContext.sql(sql)

2021-06-08 14:52:31 383

原创 shell脚本踩坑总结==》持续更新

包含运算符使用形式:if [[ $str1 =~ $str2 ]] ;then echo "包含" else echo “不包含”只会执行 then 后面的代码块;代替:使用filter=`echo $str1 | grep $str2` if [[ $filter != "" ]]

2021-06-04 12:33:37 70

原创 Shell脚本以及mysql总结以及算法==>持续更新

获得第n大的salary。

2021-06-02 11:35:11 60

原创 maven 依赖相关问题总结

Maven 依赖引入各种报错原因1、pom 依赖文件依赖爆红:可能是仓库文件损坏; 可以重新下载依赖解决;2、pom文件不爆红,但是在引入的时候无法引入; 可能是因为版本问题; 更换相同依赖其他版本后重新下载即可;总结:查看本地库中是否有已经下载的依赖jar包==》重新下载依赖==》更换其他版本的依赖...

2021-05-27 15:16:51 431

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除