- 博客(11)
- 收藏
- 关注
原创 spark调优(三):持久化减少二次查询
Spark中对于一个RDD执行多次算子的默认原理是这样的:每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。
2022-12-03 14:24:09 207 1
原创 spark调优(二):UDF减少JOIN和判断
平时写sql语句的时候经常会有大表与小标做关联查询,然后再进行group by等逻辑分组处理,或者是有很多判断条件,sql里有很多if语句,一些区间类的结构查询,这种sql语句直接放到spark上执行,会有大量的shuffle,而且执行时间巨慢。
2022-12-02 09:16:05 259
原创 spark调优(一):从hql转向代码
对于hql相对复杂的一些操作,尤其是对原始数据,一定要考虑数据量的问题,数据量大到一定程度,不是怼资源可以过去的了,而且这样优化的空间也会变得很少
2022-12-01 09:42:58 595
原创 Ambari2.7.4 + HDP3.1.4 离线安装(4)
目录6.安装配置部署HDP集群6.1登录过程6.2安装向导6.2.1配置集群名字6.2.2选择版本并修改为本地源地址6.2.3安装配置6.2.4确认安装ambari的agent6.2.5大数据服务组件安装6.2.6节点分配6.2.7分配主从6.2.8安装配置6.2.9概况部署7. 集群配置7.1hive配置更新7.2Spark配置更新6.安装配置部署HDP集群6.1登录过程如果你以上...
2021-11-15 21:11:06 2215
原创 Ambari2.7.4 + HDP3.1.4 离线安装(3)
4.实现离线安装,更换yum源4.1文件目录展示4.1.1http服务方式[root@master ~]# yum -y install httpd[root@master ~]# service httpd restartRedirecting to /bin/systemctl restart httpd.service[root@master ~]# chkconfig httpd on安装完成后,会生成 /var/www/html目录(相当于Tomcat的webapps...
2021-11-15 20:57:27 3993
原创 Ambari2.7.4 + HDP3.1.4 离线安装(2)
目录3.系统环境设置3.1安装JDK(所有节点)3.1.1卸载OpenJDK3.1.2安装JDK3.2修改节点名称(所有节点)3.2.1修改/etc/hosts文件(所有节点)3.2.2修改/etc/sysconfig/network(所有节点)3.3更新阿里巴巴yum源(所有节点)3.4同步时间ntp3.4.1安装ntp服务(所有节点)3.5关闭防火墙3.6关闭Selinux和THP(所有节点)3.6.1关闭Selinux...
2021-11-13 16:07:29 2070
原创 Ambari2.7.4 + HDP3.1.4 离线安装(1)
1. 服务地址笔者准备了5台机器进行安装172.29.30.61172.29.30.62172.29.30.63172.29.30.64172.29.30.652. Ambari搭建前环境准备2.1版本介绍截止到2020.03.03,Ambari的最新版本为2.7.5,HDP的最新版本为3.1.5通过 https://supportmatrix.hortonworks.com/ 可以查询Ambari和HDP各个版本支持情况2.2环境搭建2.2.1所用环境列表...
2021-11-13 00:40:25 1692
转载 hive Error SemanticException Unable to fetch table
一系列奇怪的操作后(建表中断、删表插入等。。)hive表想删除报错> select * from tablename limit 2;Error: Error while compiling statement: FAILED: SemanticException Unable to fetch table tablename. null (state=42000,code=40000)> drop table tablename;经过百度,找到一个解决问题的办法操作h.
2021-11-12 16:44:45 2399 1
原创 spark执行后报错physical memory used. Consider boosting spark.yarn.executor.memoryOverhead
使用spark运行数据处理事,虽然可以成功运行,但是看spark监控有fail出现,观察日志,发现有报错信息[ERROR]method:org.apache.spark.internal.Logging$class.logError(Logging.scala:70)Lost executor Container killed by YARN for exceeding memory limits. 17.0 GB of 17 GB physical memory used. Consider
2021-11-12 08:50:15 1464
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人