- 博客(18)
- 收藏
- 关注
原创 spark sql任务提交参数相关
–conf spark.sql.adaptive.enabled=true\ 开启shfffer解决小文件问题–conf spark.sql.adaptive.minNumPostShufflePartitions=10–conf spark.sql.adaptive.maxNumPostShufflePartitions=2000–conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize 134217728–conf spark.sql.
2023-10-19 15:19:04 71
原创 网络基础部分
time_wait 相关参数配置: net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_max_tw_buckets = 5000net.ipv4.tcp_max_syn_backlog = 8192net.ipv4.tcp_keepalive_time = 1200net.ipv4.ip_local_port_range = 1024 65000net.i
2023-10-19 15:18:37 42
原创 spark 任务调试指南
一、有明确报错信息:二、无明确报错信息:查看是否类名错误或者没有类名spark 任务执行中是否有位置不合适的spark.stop() 方法存在。
2023-10-19 15:14:15 61
原创 kafka数据问题
数据一致性和数据可用性可能导致数据丢失的场景1、最少同步副本数min.insync.replice = 个人推荐: 副本数 - 1 kafka 认为当消息发送到所有同步副本的时候会才会提交数据。当此副本变为不可以用的时候就会导致数据丢失。...
2023-10-19 15:13:23 35
原创 工具记录hive sql 函数 udf、mysql 权限修改 (连接jdbc)、java日期计算
val ca = Calendar.getInstance();// 得到一个Calendar的实例ca.setTime(new Date()); // 设置时间为当前时间// ca.set(2011, 11, 17);// 月份是从0开始的,所以11表示12月ca.add(Calendar.YEAR, -1); // 年份减1ca.add(Calendar.MONTH, -1);// 月份减1ca.add(Calendar.DATE, -1);// 日期减1val resultDate
2023-10-19 15:12:43 53
原创 windos
2、以下目录可以放快捷方式,也可以放 .bat 脚本文件 (此方法不区分用户)windos在开机以后会自动自动执行一次该目录下程序。start /d “路径” 快捷方式的名字。
2023-10-19 15:01:21 36
原创 clickhouse 问题处理
分析:可能是cklichouse存在的bug问题,创建表的时候认为库名加表名,但是在使用spark 写入的时候,表名择成为:{库名.表名}这样的一个表,从而找不到表,提示语法错误。ENGINE=Distributed(集群, 库名,库名.表名,分布方式)解决:创建分布表的时候 指定的时候不能加库名。
2022-01-17 11:12:23 462
原创 kylin知识总结
点击model - new model(只支持星型模型)定义模型:即那个是你的事实表(fact table)(),那个是你的维度表(look up table)使用衍生维度会需要在查询衍生维度的指标的时候跑聚合,因此会变慢,所以需要考虑使用的衍生维度和聚合任务的均衡问题。基数大的放最基数小的前面 (由于在做集合的时候使用的结果都是选用cubeid id 差的小的进行聚合)的星型模型 通过手动指定需要分析的维度 把分析结果储存到。hbase 的region的数量的优化(通过调参的方式)
2021-07-23 22:49:36 178 1
原创 机器学习学习总结(持续更新)
机器学习:介绍1、分析数据获得一个模型2、使用模型对未知数据预测语言选择:python#mermaid-svg-CftrxpewrPCLApNk .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-CftrxpewrPCLApNk .label text{fill:#333}#mermaid-svg-Cft
2021-07-17 19:41:03 458
原创 spark sql 和 spark streaming 结合使用
需要一个构建session单例的类(由于session 存在driver 为一个单例所以需要此类):object SparkSessionSingleton { @transient private var instance: SparkSession = _ def getInstance(sparkConf: SparkConf): SparkSession = { if (instance == null) { instance = SparkSession
2021-06-24 09:49:52 242
原创 spark -sql 相关
spark sql 的 df 的行转列的api:输入数据:例如note idn1 2,3,4n2 3,4,5,6输出数据:note idn1 2n1 3…操作:sql 操作 -》 使用split进行切割;val sql = ” select split(id ,',')paersonId from table1 “val split = session.sqlContext.sql(sql)
2021-06-08 14:52:31 401
原创 shell脚本踩坑总结==》持续更新
包含运算符使用形式:if [[ $str1 =~ $str2 ]] ;then echo "包含" else echo “不包含”只会执行 then 后面的代码块;代替:使用filter=`echo $str1 | grep $str2` if [[ $filter != "" ]]
2021-06-04 12:33:37 77
原创 maven 依赖相关问题总结
Maven 依赖引入各种报错原因1、pom 依赖文件依赖爆红:可能是仓库文件损坏; 可以重新下载依赖解决;2、pom文件不爆红,但是在引入的时候无法引入; 可能是因为版本问题; 更换相同依赖其他版本后重新下载即可;总结:查看本地库中是否有已经下载的依赖jar包==》重新下载依赖==》更换其他版本的依赖...
2021-05-27 15:16:51 442
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人