大数据锦集
文章平均质量分 62
大数据相关的小技巧
私奔到月球2023
海到无边天作岸,山登绝顶我为峰。
展开
-
解决Hive里date_add函数的问题
今天有同事反映,他的一个sql,在Hive里查不出结果,而在Spark里查出结果,非常诡异。于是拿他的SQL来实验:二、定位问题 分别在Hive里和在Spark里执行,发现真的如同事所说,Hive里查不出数据,而Spark里能查出数据。 起初怀疑是jhdate=‘null'的条件,在hive与spark里的判空的语法不同导致的,遂改为: 新的SQL在Hive里依然出不出数据。于是想将table_a表里的数据导出来,人肉看一下jhdate里是不是有脏数据导致hive计算出错,检索不出原创 2022-06-23 21:00:00 · 1366 阅读 · 0 评论 -
HDP3安装包分享(CentOS7版本)
有幸在HDP关闭之前,下载了当时较新的一个稳定版本3.1.5.0。在那之后,HDP与CDH彻底融合,删除了GitHub上的HDP源码,并且关闭了HDP的安装包。 当初HDP相对于CDH更加拥抱开源。CDH的manager还是闭源付费的,而HDP基于Ambari进行管理,实现了全组件开源、免费,被较多的中小型公司采用。 在各大云厂商的大数据组件推出之后,小微型公司转用阿里云的E-MR、Max-Compute或其他云厂商的大数据平台。大公司基于开源原生的Hadoop自己封装并搭建自己的大数据平台。剩下中原创 2022-06-14 19:59:45 · 1576 阅读 · 4 评论 -
以集群方式运行pyspark
一、背景说明 单机执行pyspark(python on spark)非常简单,只要在脚本所在服务器上部署个python环境或Anaconda这种集成运行环境,再通过python3命令执行就完了。 而想将python提交到spark集群中运行,则有两种方法,一种是在每个spark结点上部署python环境,在spark低版本与python集成没那么完善的时候,集群结点数又不多的情况下,的确可以这么干(实际上我就这么干过),这种方式比较大的优势是每次执行pyspark任务时,不用分发python环原创 2022-05-21 11:22:32 · 2654 阅读 · 2 评论 -
MYSQL中自动加一行汇总
背景 每天一早到公司,第一件事就是打开各种报表,查看平台运行情况。到了周末,睡完懒觉还是得爬起床远程回公司看报表数据。于是在周末的时候,将娃哄睡之后,开始着手写一下统计sql,定期执行后将结果汇总推送到企业微信。 问题就出现在“汇总”这个事。众所周知 sql的group by 能做分组统计,但是分组后还得再执行一次sql将结果汇总一遍,才能将分组统计结果加起来。如下面的SQL:select status, count(1)from action_historywhere create_原创 2022-04-18 18:30:00 · 3855 阅读 · 1 评论 -
解决Spark查询Hive表扫描不到HIVE_UNION_SUBDIR的问题
背景 使用Hive的insert overwrite/into select ... union all生成的Hive表数据时,会在原本的数据表目录下生成多个子目录(HIVE_UNION_SUBDIR_1、HIVE_UNION_SUBDIR_2),以存放数据文件(正常情况下数据文件会直接存放在数据表目录下)。 这时,如果使用spark-sql去查询该数据表的时候,会报 Not a file 的异常:Cause by: java.io.IOException: Not a file: hdf原创 2022-03-29 19:45:00 · 4925 阅读 · 2 评论