![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 50
颍天
路漫漫其修远兮吾将上下而求索
展开
-
sqoop 整库导入数据
文章目录需求整库导入常用参数通用参数导入控制参数输出格式参数输入分析参数Hive参数代码生成参数需求最近在迁移老数据的时候需要把mysql的整个库全部迁移到hive,由于mysql的表和库比较多,建表麻烦,所以只有祭出神器–sqoop的整库导入。整库导入sqoop import-all-tables --connect jdbc:mysql://ip:3306/dbname --username user --password password --hive-database abc -m 1原创 2021-08-26 12:23:04 · 563 阅读 · 0 评论 -
beeline连接HIVE默认登入使用anonymous用户权限不够
在用beeline连接hive查询表数据时,出现错误权限不够ERROR : Job Submission failed with exception 'org.apache.hadoop.security.AccessControlException(Permission denied: user=anonymous, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.name转载 2021-06-10 17:31:03 · 1251 阅读 · 0 评论 -
impala时间戳转时间的时区问题
问题在使用impala的过程中,发现impala时间戳转日期时间会比按照北京时间转出来的时间少8个小时,查询得知,impala默认配置为世界时间(UTC),和东八区差了8个小时。解决办法impala启动时加 -use_local_tz_for_unix_timestamp_conversions=true。在cdh里面,impala->配置->mpala Daemo ->Impala Daemon 命令行参数高级配置代码段(安全阀) 加 -use_local_tz_for_unix原创 2021-05-20 15:03:10 · 2563 阅读 · 0 评论 -
hive查询除某些字段的其余字段
在日常使用hive的时候,难免会遇到查询除某些字段的其余字段,比如使用开窗函数分组取第一条,那有没有一种方法能达到这个效果呢?答案是有的。首先需要设置一个参数:set hive.support.quoted.identifiers=None;然后指定要剔除哪个字段:select `(dateline)?+.+` from test.dm_user_add 剔除多个字段:## 最好按照字段顺序来写,遇到字段未过滤的时候把字段顺序换一下试试select `(dateline|thirty_day原创 2021-05-18 11:54:49 · 3752 阅读 · 0 评论 -
hive可视化工具-dbeaver
文章目录前言下载dbeaver安装连接hive前言在黑窗口操作hive是真的麻烦,而且数据查看也不好看。所以上网去找到了dbeaver,经过一番折腾,终于搞定了。下载dbeaver链接:https://dbeaver.io/download/安装普通安装即可,建议自定义一个目录。连接hive选择新连接类型->Apache hive(从这里看到,DBeaver支持的数据库还是很多)填一下hiveserver的ip和hive的数据库名点击编辑驱动配置,配置驱动经过测原创 2021-04-27 11:59:33 · 914 阅读 · 0 评论 -
impala刷新元数据以及一些命令
文章目录元数据刷新shell 命令元数据刷新impala有两种刷新元数据的方法,invalidate metadata和refresh。invalidate metadata是用于刷新全库或者某个表的元数据,包括表的元数据和表内的文件数据,它会首先清楚表的缓存,然后从metastore中重新加载全部数据并缓存,该操作代价比较重refresh只是刷新某个表或者某个分区的数据信息,它会重用之前的表元数据,仅仅执行文件刷新操作,它能够检测到表中分区的增加和减少,主要用于表中元数据未修改,数据的修改。#原创 2021-04-27 11:30:15 · 2393 阅读 · 0 评论 -
hive常用日期函数
文章目录前言前言工作原因有时候需要使用到hive的日期函数,但是很多东西都记不住,每次网上去找又浪费时间,干脆自己整理一个。原创 2021-04-26 16:07:22 · 780 阅读 · 0 评论 -
写hive到clickhouse的脚本遇到的问题及解决办法
文章目录背景步骤背景最近有个需求,就是需要把hive的数据导入到clickhouse,目前的做法是先用waterdrop把hive的数据导入clickhouse的本地表中,然后再清洗写入分布式表中。手动处理已经是完全可以的,但是想做成定时调度,但是我们这边的大数据集群和clickhouse是分开的,所以需要远程调用执行clickhouse的命令,下面就是我在写脚本的时候遇到的问题以及解决办法,特此记录一下。步骤waterdrop搭建以及导数据到clickhouse可以参考:https://blog.原创 2021-04-23 10:45:26 · 1220 阅读 · 0 评论 -
beeline的使用方法以及导出csv需要注意的问题
文章目录概述参数示例注意问题概述最近需要导出hive的数据到clickhouse,但是由于某些原因使用不了datax,只有使用beeline导出数据csv,在写入clickhouse。Beeline是Hive新的命令行客户端工具,是从 Hive 0.11版本引入的。参数--常用--help ---帮助 beeline --help--maxWidth=MAXWIDTH ---设置截断数据的最大宽度:beeline --maxWidth=150-e <query> ---使用一原创 2021-03-31 09:15:05 · 4853 阅读 · 0 评论