大数据
大卜萝
这个作者很懒,什么都没留下…
展开
-
kylin知识总结
点击model - new model(只支持星型模型)定义模型:即那个是你的事实表(fact table)(),那个是你的维度表(look up table)使用衍生维度会需要在查询衍生维度的指标的时候跑聚合,因此会变慢,所以需要考虑使用的衍生维度和聚合任务的均衡问题。基数大的放最基数小的前面 (由于在做集合的时候使用的结果都是选用cubeid id 差的小的进行聚合)的星型模型 通过手动指定需要分析的维度 把分析结果储存到。hbase 的region的数量的优化(通过调参的方式)原创 2021-07-23 22:49:36 · 175 阅读 · 1 评论 -
spark sql任务提交参数相关
–conf spark.sql.adaptive.enabled=true\ 开启shfffer解决小文件问题–conf spark.sql.adaptive.minNumPostShufflePartitions=10–conf spark.sql.adaptive.maxNumPostShufflePartitions=2000–conf spark.sql.adaptive.shuffle.targetPostShuffleInputSize 134217728–conf spark.sql.原创 2023-10-19 15:19:04 · 64 阅读 · 0 评论 -
clickhouse 问题处理
分析:可能是cklichouse存在的bug问题,创建表的时候认为库名加表名,但是在使用spark 写入的时候,表名择成为:{库名.表名}这样的一个表,从而找不到表,提示语法错误。ENGINE=Distributed(集群, 库名,库名.表名,分布方式)解决:创建分布表的时候 指定的时候不能加库名。原创 2022-01-17 11:12:23 · 449 阅读 · 0 评论 -
spark 任务调试指南
一、有明确报错信息:二、无明确报错信息:查看是否类名错误或者没有类名spark 任务执行中是否有位置不合适的spark.stop() 方法存在。原创 2023-10-19 15:14:15 · 58 阅读 · 0 评论 -
kafka数据问题
数据一致性和数据可用性可能导致数据丢失的场景1、最少同步副本数min.insync.replice = 个人推荐: 副本数 - 1 kafka 认为当消息发送到所有同步副本的时候会才会提交数据。当此副本变为不可以用的时候就会导致数据丢失。...原创 2023-10-19 15:13:23 · 34 阅读 · 0 评论