bigdata
qq_43159264
这个作者很懒,什么都没留下…
展开
-
flinksql自定义连接器
1、上阿里云或者github上找代码2、打成jar包3、放在flink安装目录的lib下4、重启flink集群注意:1、lib下的jar包也许会被污染,报错:解决:pom依赖加上 provided2、没有生效的,会报没有生成sink或者语法不对...原创 2021-09-30 14:18:17 · 349 阅读 · 0 评论 -
数据仓库建模
数仓建模指标:事务型指标,存量型指标,复合指标数据层:操作数据层,公共纬度模型层,应用数据层,构建过程1、高层模型,对产出目标,进行维表和事实表进行图形描述2、详细模型,对模型进行数据填充3、验证,再设计4、出文档基本原则1、一致性,字段名等统一2、命名清晰可理解3、高内聚低耦合4、核心模型与扩展模型分离5、公共处理逻辑下沉及单一6、成本无性能平衡纬度设计过程1、确定主纬表2、确定相关纬表3、确定维度属性维度表类型维度表处理方法1、雪花模型的纬度进行反规范化2、拆原创 2021-08-20 16:31:05 · 90 阅读 · 0 评论 -
spark的使用
1、上传spark的程序jar包2、spark命令,提交任务3、如果任务正常跑,点入yarn的管理页面,点击applicationmaster,进入spark的调度页面,可以看到job、stage的划分、excuter的个数4、如果失败用yarn命令下载日志:yarn logs -applicationId 任务id >logs.txt。查看失败原因。或者点击yarn页面applicationid进入,可看到部分日志...原创 2021-05-27 17:48:02 · 347 阅读 · 0 评论 -
azkaban
概述1、组件:webserver,excuterserver,mysql2、任务,任务流程3、任务脚本传参${param}4、执行状态邮件5、只支持上传zip包原创 2021-05-24 12:36:21 · 89 阅读 · 0 评论 -
Apache Kylin
https://www.cnblogs.com/huajiezh/p/6020880.html大数据分析神兽麒麟(Apache Kylin)1.Apache Kylin是什么?在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式原创 2020-06-14 10:22:27 · 153 阅读 · 0 评论 -
分布式
分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器,处理更多的数据。...原创 2020-05-20 16:07:16 · 97 阅读 · 0 评论 -
clouderamanager清理日志
https://www.cnblogs.com/qinglanmei/p/11455010.htmlclear cdh logrm /var/lib/cloudera-host-monitor/ts//partition/* -rfrm /var/lib/cloudera-service-monitor/ts//partition/* -rfrm -rf /var/log/cloudera-scm-eventserver/.out.rm -rf /var/log/cloudera-scm-fire原创 2020-05-09 16:57:54 · 752 阅读 · 1 评论 -
Hbase
Hbase(待整理)基本理论1、Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。2、Hbase为null的记录不会被存储.3、表包含rowkey,时间戳,和列族4、 hbase是主从架构。hmaster作为主节点,hregionserver作为从节点。5、Hive 可以用来进行统计查询,HBase 可以用来进行实时查询,数据也可以从Hive 写到Hbase,设置再从Hbase 写回Hive。6、HBase SQL 的功能可以通过Apac原创 2020-05-09 16:50:46 · 167 阅读 · 0 评论 -
HIVE理论知识
版本: 架构: 待续原创 2018-09-11 20:53:24 · 104 阅读 · 0 评论