怀瑾握瑜的嘉与嘉-CSDN博客

原创 spark调优（三）：持久化减少二次查询

Spark中对于一个RDD执行多次算子的默认原理是这样的：每次你对一个RDD执行一个算子操作时，都会重新从源头处计算一遍，计算出那个RDD来，然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。

2022-12-03 14:24:09 254

原创 spark调优（二）：UDF减少JOIN和判断

平时写sql语句的时候经常会有大表与小标做关联查询，然后再进行group by等逻辑分组处理，或者是有很多判断条件，sql里有很多if语句，一些区间类的结构查询，这种sql语句直接放到spark上执行，会有大量的shuffle，而且执行时间巨慢。

2022-12-02 09:16:05 345

原创 spark调优（一）：从hql转向代码

对于hql相对复杂的一些操作，尤其是对原始数据，一定要考虑数据量的问题，数据量大到一定程度，不是怼资源可以过去的了，而且这样优化的空间也会变得很少

2022-12-01 09:42:58 646

原创 hive数据导入：从查询数据导入

本文介绍hive数据导入的一种方法，从查询数据导入。

2022-11-30 10:00:42 696

原创 hive数据导入：文件导入

本文介绍hive数据导入的一种方法，从文件导入。

2022-11-28 09:10:37 583

原创 Ambari2.7.4 + HDP3.1.4 离线安装（4）

目录6.安装配置部署HDP集群6.1登录过程6.2安装向导6.2.1配置集群名字6.2.2选择版本并修改为本地源地址6.2.3安装配置6.2.4确认安装ambari的agent6.2.5大数据服务组件安装6.2.6节点分配6.2.7分配主从6.2.8安装配置6.2.9概况部署7. 集群配置7.1hive配置更新7.2Spark配置更新6.安装配置部署HDP集群6.1登录过程如果你以上...

2021-11-15 21:11:06 2282

原创 Ambari2.7.4 + HDP3.1.4 离线安装（3）

4.实现离线安装，更换yum源4.1文件目录展示4.1.1http服务方式[root@master ~]# yum -y install httpd[root@master ~]# service httpd restartRedirecting to /bin/systemctl restart httpd.service[root@master ~]# chkconfig httpd on安装完成后，会生成 /var/www/html目录（相当于Tomcat的webapps...

2021-11-15 20:57:27 4130

原创 Ambari2.7.4 + HDP3.1.4 离线安装（2）

目录3.系统环境设置3.1安装JDK（所有节点）3.1.1卸载OpenJDK3.1.2安装JDK3.2修改节点名称（所有节点）3.2.1修改/etc/hosts文件（所有节点）3.2.2修改/etc/sysconfig/network（所有节点）3.3更新阿里巴巴yum源（所有节点）3.4同步时间ntp3.4.1安装ntp服务（所有节点）3.5关闭防火墙3.6关闭Selinux和THP（所有节点）3.6.1关闭Selinux...

2021-11-13 16:07:29 2143

原创 Ambari2.7.4 + HDP3.1.4 离线安装（1）

1. 服务地址笔者准备了5台机器进行安装172.29.30.61172.29.30.62172.29.30.63172.29.30.64172.29.30.652. Ambari搭建前环境准备2.1版本介绍截止到2020.03.03，Ambari的最新版本为2.7.5，HDP的最新版本为3.1.5通过 https://supportmatrix.hortonworks.com/ 可以查询Ambari和HDP各个版本支持情况2.2环境搭建2.2.1所用环境列表...

2021-11-13 00:40:25 1766

转载 hive Error SemanticException Unable to fetch table

一系列奇怪的操作后（建表中断、删表插入等。。）hive表想删除报错> select * from tablename limit 2;Error: Error while compiling statement: FAILED: SemanticException Unable to fetch table tablename. null (state=42000,code=40000)> drop table tablename;经过百度，找到一个解决问题的办法操作h.

2021-11-12 16:44:45 2705 2

原创 spark执行后报错physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

使用spark运行数据处理事，虽然可以成功运行，但是看spark监控有fail出现，观察日志，发现有报错信息[ERROR]method:org.apache.spark.internal.Logging$class.logError(Logging.scala:70)Lost executor Container killed by YARN for exceeding memory limits. 17.0 GB of 17 GB physical memory used. Consider

2021-11-12 08:50:15 1596