hive
威尼斯的星期天
Console.log('♚')
展开
-
hive执行某张表drop语句无效卡住的情况
现象删除一张表时,发现执行不报错,但是一直卡住。执行其他表查询或者删除语句正常,查看元数据库字符集正常。锁定问题在于单表,查询HIVE_LOCKS发现该表存在锁。复现原因,执行过程中关闭了session窗口(xshell),导致加锁未释放。(在hive操作过程中强制退出后,会导致锁表,并且unlock命令无效)解决办法此时可以去mysql的元数据库中解锁 mysql的元数据中解锁的命令是不同版本可能表名不同,以下是2.3.x版本hive表 mysql>use hive; mysql>原创 2021-07-14 10:52:45 · 1249 阅读 · 2 评论 -
hive调优
map控制#每个Map最大输入大小set mapred.max.split.size=256000000;#一个节点上split的至少的大小set mapred.min.split.size.per.node=100000000;#一个交换机下split的至少的大小set mapred.min.split.size.per.rack=100000000;reduce控制# 每个reduce处理的数据量set hive.exec.reduces.bytes.per.reducer=500原创 2021-04-22 17:13:36 · 78 阅读 · 0 评论 -
hive-jsonserde建表映射
jsonserde简介直接解析json数据转换成hive表,可以配置映射。需要相关jar包支持~样例数据{"a":"2021-03-02 21:27:55","e":"activity_on_start","faceImage":"","p":{"an":".ui.VIPCenterActivity","from":"com.imprexion.adplayer","fromActivity":""},"t":1614691675578,"uid":-1,"v":3,"device_id": "1f4原创 2021-03-03 17:35:15 · 515 阅读 · 2 评论 -
sqoop数据导出注意事项
1.hive->pgsql数据由HDFS中的Hive表导出到关系数据库PGSQL中,导出数据时,关系型数据库中的存放导入数据的表需要遵以下规则hive中数据字段列类型顺序和pgsql中表字段列类型顺序一致,sqoop导出时,sqoop不是将hive字段导出到对应pgsql表字段中,所以导出时,一定要注意表字段顺序和类型!字段名称顺序不同时,如果字段列类型顺序相同,导出是成功的,但是会有数据所在列和hive中列不一致的情况,特别是通过alter table操作得到的新表!...原创 2021-02-20 14:11:30 · 689 阅读 · 4 评论 -
hive中日期24小时制,转换补0
背景日期字符串 2020-02-02 2:00:00 如何在2点前面补0,成为2020-02-02 02:00:00。select unix_timestamp('2020-02-02 2:02:02'), unix_timestamp('2020-02-02 02:02:02');看明白上面的查询结构就不难解决这个问题。将返回结果再调用一次from_unixtime(timestamp,format)即from_unixtime(unix_timestamp('2020-02-02 2:02原创 2020-12-16 17:14:02 · 2533 阅读 · 0 评论 -
Hive中load数据注意事项
如果是load到一个分区表那么语法应该是load data inpath '$yourpath' overwrite into table ${yourtable} partition(dt='2020-12-10');但是需要注意的事:load到哪个目录,哪个目录中不能放需要load的文件。而且最重要的一点,需要load的文件,必须放到一个空文件夹里,每次执行load的时候,会将这个文件夹里的数据都load走,最后将文件夹删除!...原创 2020-12-11 16:39:32 · 1325 阅读 · 0 评论 -
hive中orc小文件优化
小文件的缺陷我们就不说了,直接进入到正题.HIVE自动合并输出的小文件的主要优化手段为:set hive.merge.mapfiles = true:在只有map的作业结束时合并小文件,set hive.merge.mapredfiles = true:在Map-Reduce的任务结束时合并小文件,默认为False;set hive.merge.size.per.task = 256000000; 合并后每个文件的大小,默认256000000set hive.merge.smallfiles.av转载 2020-11-07 16:40:36 · 2017 阅读 · 0 评论 -
Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde in nexus-aliyun
原因mvn配置文件中指定的镜像仓库中没有对应的jar包,后来百度了很多包括google,github上看了很多解决办法以后才知道,原来这个jar是在spring插件仓库里。所以有了后面的对mvn配置文件修改。解决办法<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云spring插件仓库</name> <url>http原创 2020-10-22 15:44:04 · 7623 阅读 · 5 评论 -
hive中常见的关于日期的函数 (整理)
hive中常见的关于日期的函数unix_timestamp:返回当前或指定时间的时间戳 from_unixtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天months_between: 两个原创 2020-06-18 14:54:06 · 3738 阅读 · 0 评论 -
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):
Caused by:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):Permission denied: user=swimer, access=EXECUTE,inode="/tmp/hive":zhengkw:supergroup:drwxrwx—windows环境下,idea编写spark-sql访问hive权限问题hive是在HDFS上的,一般作为数据仓库,.原创 2020-05-15 20:50:52 · 2008 阅读 · 0 评论 -
not instantiate implementation: com.thinkaurelius.titan.diskstorage.hbase.HBaseStoreManager
前言在hadoop-ha中集成atlas管理元数据报错处理报错Factory method ‘get’ threw exception; nested exception isjava.lang.IllegalArgumentException: Could not instantiateimplementation:com.thinkaurelius.titan.diskstora...原创 2020-04-19 22:20:22 · 509 阅读 · 0 评论 -
tez在join操作中遇到数据丢失问题(牵涉hive优化)
前言相信很多人遇到过,将tez集成到hive中时,进行表join操作,比如3张表进行join,发现最后结果和预期比较 ,少了一些。然后对每个子查询进行分析,发现往往每个子查询又没有任何数据丢失!而是到了join阶段,数据才出现部分丢失。下面我们对此进行展开叙述。问题排查首先,为了排查到底是哪里的情况。我们知道,tez对DAG运算做了很多优化,和传统MR运行有区别。那么到底如何查呢。首先为...原创 2020-04-12 14:34:42 · 5002 阅读 · 17 评论 -
高版本hive中集成Tez以及配置代理和允许通过web端口访问hdfs
前言hive经常用于数仓,但是由于他的计算引擎(默认是MR)不支持DAG(Directed Acyclic Graph)DAG解释,所以导致效率低下,所以一般生产中用集成Tez详细配置解析,笔者就在这里简单的记录下配置。解压安装将apache-tez-0.9.1-bin.tar.gz上传到HDFS的/tez目录下。这一步是因为tez是在yarn上运行Tezjob,但是如果只装在一台机器上...原创 2020-04-07 21:39:46 · 587 阅读 · 0 评论 -
低版本Hive配置详情
前言已经搭建起来一个Hadoop-HA集群,上面也搭建了Hive以及MySQL搭建方法直通车!点我!!。既然万事俱备,那么开始认识下Hive框架吧!从wordcount认识hive前面手写过很多MR程序,也对MR有一定的认识。hive框架是将每一句HQL转换成为一个MR程序!虽然提供的模板不能完全的覆盖所有生产环境,但是框架的强大依然让它非常流行。下面以简单的wordcount程序来认识下h...原创 2020-03-06 23:24:15 · 264 阅读 · 0 评论 -
Hive自定义UDF函数
自定义UDF函数创建一个Maven工程Hive导入依赖<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId>...原创 2020-03-11 01:36:56 · 288 阅读 · 0 评论 -
Hive中自定义UDF打包后上传到HDFS上的自定义函数库目录
前言之前写了一个指定UDF的案例,其中分享了2个比较常见的导入jar的方法!但是实际开发中,还可以放到HDFS上来进行管理,下面就此展开!自定义UDF方法上传jar在HDFS上创建一个目录/user/hive/jars[zhengkw@hadoop102 module]$ hadoop fs -mkdir -p /user/hive/jars上传[zhengkw@hadoop10...原创 2020-04-05 23:55:53 · 1190 阅读 · 0 评论 -
Failure to find org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde in http://maven.aliyun.com
问题编写Hive自定义UDF以及UDTF函数时,测试都通过了,但是在附带依赖打包的时候发现了一个错误!错误代码:Failure to findorg.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde inhttp://maven.aliyun.com/nexus/content/repositories/central/ wa...原创 2020-04-02 15:00:58 · 6923 阅读 · 7 评论