自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 spark调优(三):持久化减少二次查询

Spark中对于一个RDD执行多次算子的默认原理是这样的:每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。

2022-12-03 14:24:09 207 1

原创 spark调优(二):UDF减少JOIN和判断

平时写sql语句的时候经常会有大表与小标做关联查询,然后再进行group by等逻辑分组处理,或者是有很多判断条件,sql里有很多if语句,一些区间类的结构查询,这种sql语句直接放到spark上执行,会有大量的shuffle,而且执行时间巨慢。

2022-12-02 09:16:05 259

原创 spark调优(一):从hql转向代码

对于hql相对复杂的一些操作,尤其是对原始数据,一定要考虑数据量的问题,数据量大到一定程度,不是怼资源可以过去的了,而且这样优化的空间也会变得很少

2022-12-01 09:42:58 595

原创 hive数据导入:从查询数据导入

本文介绍hive数据导入的一种方法,从查询数据导入。

2022-11-30 10:00:42 625

原创 hive数据导入:文件导入

本文介绍hive数据导入的一种方法,从文件导入。

2022-11-28 09:10:37 549

原创 Ambari2.7.4 + HDP3.1.4 离线安装(4)

目录6.安装配置部署HDP集群6.1登录过程6.2安装向导6.2.1配置集群名字6.2.2选择版本并修改为本地源地址6.2.3安装配置6.2.4确认安装ambari的agent6.2.5大数据服务组件安装6.2.6节点分配6.2.7分配主从6.2.8安装配置6.2.9概况部署7. 集群配置7.1hive配置更新7.2Spark配置更新6.安装配置部署HDP集群6.1登录过程如果你以上...

2021-11-15 21:11:06 2215

原创 Ambari2.7.4 + HDP3.1.4 离线安装(3)

4.实现离线安装,更换yum源4.1文件目录展示4.1.1http服务方式[root@master ~]# yum -y install httpd[root@master ~]# service httpd restartRedirecting to /bin/systemctl restart httpd.service[root@master ~]# chkconfig httpd on安装完成后,会生成 /var/www/html目录(相当于Tomcat的webapps...

2021-11-15 20:57:27 3993

原创 Ambari2.7.4 + HDP3.1.4 离线安装(2)

目录3.系统环境设置3.1安装JDK(所有节点)3.1.1卸载OpenJDK3.1.2安装JDK3.2修改节点名称(所有节点)3.2.1修改/etc/hosts文件(所有节点)3.2.2修改/etc/sysconfig/network(所有节点)3.3更新阿里巴巴yum源(所有节点)3.4同步时间ntp3.4.1安装ntp服务(所有节点)3.5关闭防火墙3.6关闭Selinux和THP(所有节点)3.6.1关闭Selinux...

2021-11-13 16:07:29 2070

原创 Ambari2.7.4 + HDP3.1.4 离线安装(1)

1. 服务地址笔者准备了5台机器进行安装172.29.30.61172.29.30.62172.29.30.63172.29.30.64172.29.30.652. Ambari搭建前环境准备2.1版本介绍截止到2020.03.03,Ambari的最新版本为2.7.5,HDP的最新版本为3.1.5通过 https://supportmatrix.hortonworks.com/ 可以查询Ambari和HDP各个版本支持情况2.2环境搭建2.2.1所用环境列表...

2021-11-13 00:40:25 1692

转载 hive Error SemanticException Unable to fetch table

一系列奇怪的操作后(建表中断、删表插入等。。)hive表想删除报错> select * from tablename limit 2;Error: Error while compiling statement: FAILED: SemanticException Unable to fetch table tablename. null (state=42000,code=40000)> drop table tablename;经过百度,找到一个解决问题的办法操作h.

2021-11-12 16:44:45 2399 1

原创 spark执行后报错physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

使用spark运行数据处理事,虽然可以成功运行,但是看spark监控有fail出现,观察日志,发现有报错信息[ERROR]method:org.apache.spark.internal.Logging$class.logError(Logging.scala:70)Lost executor Container killed by YARN for exceeding memory limits. 17.0 GB of 17 GB physical memory used. Consider

2021-11-12 08:50:15 1464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除