Hive
卢子墨
这个作者很懒,什么都没留下…
展开
-
HiveSql dense_rank对于同分数排名要相同的问题
可以使用 dense_rank()的开窗函数例: table1name scorebotter 80herry 80lily 99select name,score,dense_rank() over (partition by score order by score) as rank_id from table1得到的结果:name score rank_idlily 99 1botter原创 2021-04-26 17:58:03 · 391 阅读 · 0 评论 -
hive删除原外部表,新建新表,同步元数据
#删除已存在的表drop table if exists user_data;#新建表create external table if not exists user_data(user_id string,name string,age int)PARTITIONED BY(ds string)CLUSTERED BY (user_id) INTO 10 BUCKETSR...原创 2020-01-15 22:48:20 · 1428 阅读 · 0 评论 -
shell脚本按照时间将数据插入到hive
写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。#!/bin/bashds=`date -d '-1 day' "+%Y-%m-%d"`#如果某天的数据有误需要重跑 千万注意shell脚本中的空格问题if [ $1 ];then ds=$1 fiSQL="insert overwrite table table_nam...原创 2020-01-07 17:42:37 · 466 阅读 · 0 评论 -
Hive之API封装及操作
首先看依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xs...转载 2019-11-05 14:15:24 · 1256 阅读 · 0 评论 -
WARN: Establishing SSL connection without server’s identity verification is not recommended
一、问题Hive能正常执行任务,但出现“WARN: Establishing SSL connection without server’s identity verification is not recommended.”告警,翻译过来就是“不建议不使用服务器身份验证建立SSL连接。”Thu Jun 15 12:56:05 CST 2017 WARN: Establishing SSL...原创 2019-10-31 14:27:34 · 4329 阅读 · 1 评论 -
hive on spark的时候,如何做到hive的spark任务也支持动态分配(已解决)
需求:比如: 在hive里面写了:select count(*) from test 这样的一个任务,运行模式是hive on spark ,但是用户就只关心写这个任务就行,至于这个任务需要几个executor,如何实现靠spark的机制动态分配?开启动态资源分配一定要开启 Spark Shuffle Service(1)spark-default.conf 添加配置:&l...原创 2019-10-17 14:18:58 · 1330 阅读 · 0 评论 -
spark on hive 与 hive on spark 的区别
1 Spark on Hive :数据源是:hiveSpark 获取hive中的数据,然后进行SparkSQL的操作(hive只是作为一个spark的数据源);2 Hive on Spark :数据源是:hive本身Hive将自己的MapReduce计算引擎替换为Spark,当我们执行HiveSQL(HQL)时底层以经不是将HQL转换为MapReduce...原创 2019-10-17 11:31:46 · 588 阅读 · 0 评论 -
Hive表更改location
两种方式:一、通过修改表DDL:alter table table_name set location 'hdfs://128.196.235.130:9000/input'二、直接修改hive 的meta info:update `DBS` set `DB_LOCATION_URI` = replace(DB_LOCATION_URI,"oldpath","newpath")...原创 2019-09-06 14:49:15 · 5902 阅读 · 0 评论 -
shell脚本运行hive -f "XXX.sql" 保存全部运行日志到指定文件
#!bin/shsource ~/.bash_profileSQL_PATH=/home/hadoop/SQL_FILELOG_DIR=/home/hadoop/SQL_EXE_LOG_FILE#最关键的地方就是 ' >& 'hive -f $SQL_PATH/aaa.sql >& $LOG_DIR/aaa.logexit;...原创 2019-08-29 10:34:59 · 2303 阅读 · 0 评论 -
hive表简单使用select * from tableName 也会跑很久MR问题(已解决)
今天hive表查数据的时候,只是简单的使用select * from tableName 也会跑很久MR,今测试发现解决办法: # 修改 hive-site.xml文件 ,加入属性,保存退出。<property> <name>hive.fetch.task.conversion</name> <value>more</...原创 2019-05-21 16:35:57 · 1089 阅读 · 0 评论 -
解决因hive表锁表,导致无法进行查询、删除等操作问题(实测,已解决)
正常登录hive数据库 发现其中test表无法操作,连基本的desc test命令都处于卡机状态,查询之后发现,原来是表被锁住了。因此,结合网上查询的一些方法,进行总结如下:// 报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Current transa...原创 2019-05-05 11:04:20 · 9511 阅读 · 1 评论 -
hive3.0.0 新建orc表以便支持 delete 问题 及sql语句调优
说明:之前查了资料得到hive3.0 及以上版本是支持ACID的,但是在实际操作中并没有实现delete功能,为了节省时间之间将原来存储格式为textfile格式的内部表修改为存储格式为orcfile的orc表,经过实操,发现实现了delete功能,且性能提升一倍左右。另:测试的内存配置为垃圾8G,执行引擎为yarn。# 老思路 cst_bsc_inf_dplt 全量表 按客户ID分桶...原创 2019-02-22 11:29:30 · 1336 阅读 · 0 评论 -
impala没有write权限插入数据到hive表:impala does not have write access to at least on HDFS path hdfs://...
问题:impala does not have write access to at least on HDFS path hdfs://hadoop01:9000/user/hive/warehouse/news.db/hive_test_table解决方法:(1)可能是hdfs://hadoop01:9000/user/hive/warehouse/news.db/hive_tes...原创 2018-11-14 17:25:31 · 7673 阅读 · 0 评论 -
在Linux环境下搭建Hive
1 Hive安装1.1 内嵌Derby版本(1)上传安装包 apache-hive-1.2.1-bin.tar.gz (2) 解压安装包 tar -zxvf apache-hive-1.2.1-bin.tar.gz (3)进入bin目录下,运行hive脚本: ./hive 注:这时候一般会报错:Terminal initialization failed; falling back to ...原创 2017-08-11 17:20:52 · 1293 阅读 · 0 评论