Hive
文章平均质量分 71
数据仓库
不秃不强就很帅
不秃也不强
展开
-
spark-sql骚技巧-sql结果参数化
纯sql无代码,sql结果赋值给变量,实现参数化当我们在公司的开发平台上写些sql数据分析时,发现经常会遇到不同sql使用同一参数的情况,比如计算比率要计算总数,总数被多次使用,或者每次要传入where day=date_format(date_sub(current_date(), 1), ‘yyyyMMdd’)这样的日期条件,这时可不可以将总数参数化,这样只要算一次,可以提升效率和sql颜值呢?经过研究hive sql的参数化,总结出spark-sql的纯sql写法,下面是spark3.1.2环境原创 2021-09-14 10:55:18 · 2415 阅读 · 0 评论 -
apache kylin4.0安装与使用
apache kylin4.0安装与使用kylin4.0优势kylin4.0架构大调整,去除了Hbase,改用hdfs parquet文件作为底层数据存储层,无需指标rowkey编码计算及查询引擎统一,采用spark,支持spark3.1,所以cube计算查询效率比kylin3.0直接提升一倍,稳定性也高很多存储的cube计算数据占用空间比hbase少一倍简单查询跟3.x版本性能差不多,但对应复杂查询,性能成倍数提升(parquet及目录分区过滤)综上,随着kylin4.0稳定版本发布,没有不升原创 2021-09-11 19:14:33 · 3747 阅读 · 11 评论 -
spark读hive没有权限异常Permission denied
sparkSQL读取hive库或表时提示没有权限异常spark@h1:~$ spark-shell 20/03/08 13:29:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetti...原创 2020-03-08 21:53:58 · 2602 阅读 · 0 评论 -
Hadoop集群配置部署
一、硬件需求 三台虚拟机:ubuntu01 ubuntu02 ubuntu03 vmware workstation 15上创建上面三台ubuntu server 18.04虚拟机二、配置Spark账户互信,免密登陆 1.rsa公钥加密密钥生成 ssh-keygen -t rsa ...原创 2019-09-12 13:56:28 · 168 阅读 · 0 评论