hive
醉无吟
这个作者很懒,什么都没留下…
展开
-
spark dataframe设置分区数不起作用
spark项目中发现从hive读取的数据,dataframe无法进行reparation的设置,非得转成rdd才可以???后来经过查阅资料和测试,原来是submit中设置的参数问题:--conf spark.sql.adaptive.enabled=true 谨慎使用原因:由于spark.sql.adaptive.enabled设置成true就是开启动态分区了,自定义分区数将不管用;我们设置成 false 后自定义分区数就管用了!!!相关参数:spark.sql.adapt..原创 2020-07-03 10:43:36 · 1351 阅读 · 0 评论 -
hive java.lang.OutOfMemoryError: Java heap space
hive 开启了hiveServer2服务,连接了一段时间就拒绝连接,hive日志报错如下:Exception in thread "org.apache.hadoop.hive.common.JvmPauseMonitor$Monitor@56b9d43f" java.lang.OutOfMemoryError: Java heap spaceException in thread "Tri...原创 2020-04-09 14:48:29 · 3430 阅读 · 0 评论 -
HADOOP+HIVE安装
本人单机搭建环境,以前搭完就拉到了,只是最近又搭建。。。还是有坑,觉得还是记录一下相关配置吧1.下载linux版的jdk并安装,一定选择的时候选择linux版的,不然他识别不到2.下载hadoop和hive,一定要注意版本,一般不要用最新版本,本次我用的都是3.12的版本3.配置/etc/profile# /etc/profile#jdkexport JAVA_HOME=...原创 2020-03-22 20:08:02 · 1627 阅读 · 1 评论 -
HIVE-CUSTOM 权限设置
公司对外的业务,需要再隔离机上安装Hadoop环境,同时hive来管理表,相对hvie建的表做一些简单的权限控制。hive的权限控制一般企业还是用Kerberos,跟Hadoop账户相关联;下面介绍的是一种在hive层面的控制。进入正题:首先,此方法需要自己编程,当然下面有代码,你自己新建项目。复制。打包。上传到你安装的hive根目录的lib中。 import java.io....原创 2020-03-22 19:38:16 · 2048 阅读 · 0 评论 -
spark-on-hive环境,hive-on-spark环境配置
spark中如果不配置hive环境是无法读取hive表数据的,如下配置:①如果你的hive元数据存在mysql,把mysql-connector-java-8.0.18.jar复制到spark的jars中②在spark的spark-env.sh中添加:export HIVE_HOME=/root/bigdata/hive-2.3.6export HIVE_CONF_DIR=${HI...原创 2019-11-29 18:20:53 · 463 阅读 · 0 评论 -
Exception in thread "main" MetaException(message:Version information not found in metastore. )
当你启动hive的Metastore Server 时候,报错,解决如下:在hive-site.xml中添加:<property> <name>hive.metastore.schema.verification</name> <value>false</value> <description>...原创 2019-11-26 16:05:00 · 1014 阅读 · 0 评论 -
hive web界面无法访问问题
今天突然想访问一下hive的web界面,发现无法访问,于是进行了如下友好操作:1.hive的web访问主要是hiveserver2服务的开启,请先配置hive-size.xml<!-- 这是hiveserver2 --> <property> <name>hive.server2.thrift.port...原创 2019-11-19 21:08:39 · 2697 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
今天运行hive shell,发现出现如下问题:解决:1.在hive的配置文件hive-site.xml添加如下配置:<property> <name>datanucleus.schema.autoCreateAll</name> <value>true</value></propert...原创 2019-11-19 16:47:39 · 105 阅读 · 0 评论 -
Parquet与ORC:高性能列式存储格式(收藏)
Parquet与ORC:高性能列式存储格式(收藏)背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、SparkSQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFil...原创 2019-10-15 16:00:59 · 403 阅读 · 0 评论