Hive
文章平均质量分 79
TURING.DT
科技改变世界,技术改变人生。
展开
-
数仓模型规范-(刷新/存储/时间维度/废弃归档规范)
一、刷新周期规范 刷新周 期 刷新周期命名 刷新周期缩写 描述 天 day d 每天更新数据 周 week w 每周更新数据 月 month m 每月更新数据 季度 quarter q 每季度更新数据 年 year y 每年更新数据 实时 realtime r 实时更新数据 二、存储策略规范策略类型 后缀缩写 每原创 2022-01-05 14:45:45 · 847 阅读 · 0 评论 -
Linux下安装Superset实践
一、安装conda create --name super python=3.6yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel根据官方文档操作,在执行到fabmanager create-admi...原创 2020-03-17 18:42:09 · 1784 阅读 · 0 评论 -
Linux CentOS7安装Hive2.3并配置sparkSQL访问Hive
一、安装mysqlyum install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum install mysql-server启动mysqlservice mysqld ...原创 2020-01-13 19:23:50 · 511 阅读 · 0 评论 -
让Hive简单的查询不启用Mapreduce而启用Fetch task本地运行
查询某个表的某一列,Hive默认是会启用MapReduce来完成这个任务,如下:hive> SELECT uid, number FROM test limit 9;Total MapReduce CPU Time Spent: 2 seconds 320 msecOK1 122 153 214 225 2原创 2016-09-23 14:00:16 · 1151 阅读 · 0 评论 -
hiveserver2服务异常停止java.lang.OutOfMemoryError: Java heap space
2017-01-02 15:34:04,461 WARN [IPC Client (188363230) connection to nn01/192.168.1.4:8020 from hive]: ipc.Client (Client.java:run(955)) - Unexpected error reading responses on connection Thread[IPC Cl原创 2017-01-03 10:52:38 · 8343 阅读 · 0 评论 -
hive metastore日志中报错message:Metastore contains multiple versions
hive metastore日志中报错:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at o原创 2016-12-29 15:15:03 · 2069 阅读 · 0 评论 -
hive语句 partition(dt=substr('2016-12-01',1,7))取分区问题
今天帮助一个朋友排查hive语句的问题,如下:insert overwrite table database.tablepartition(dt=substr('2016-12-01',1,7))select substr('2016-12-01',1,7) as month,...报错:cannot recognize input near 'substring' '('原创 2017-01-18 15:26:07 · 9145 阅读 · 2 评论 -
hive修改表模式
hive用户可以通过alter语句更改table属性Alter Partitions增加partitions: ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1']转载 2017-03-30 17:02:22 · 504 阅读 · 0 评论 -
hadoop跨集群之间迁移hive数据
Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等。1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrc原创 2017-04-13 11:51:04 · 14238 阅读 · 7 评论 -
Hive指定查询输出分隔符
业务场景做数据分析的时候,经常会用到Hive -e "sql" > xxx.txt或者最原始的hive命令行来获得查询结果,然后再将查询结果放到Excel等工具中,但是如果查询的字段太多,这时候将查询结果放到Excel会经常会碰到错位问题,很是头疼.解决方案一:借助linux管道替换输出分隔符样例如下:# 方法一:sedhive -e "select * from转载 2017-04-21 14:40:26 · 3866 阅读 · 0 评论 -
获取hive表最新分区
在对时间要求比较高的流程中,往往会希望获取最新的分区数据。如果采用 select max(分区) as p from table_name; 获取分区,如果表很大时,时间代价很大;另外,如果直接从分区路径判断,虽然速度也会很快,当hive如何数据正在插入更新时被判断,极有可能会出现job还在进行,而判断已经结束,导致错误。有一个可行的策略,对上一个任务做依赖调度,并且采用show partit转载 2017-10-17 20:00:02 · 7532 阅读 · 0 评论 -
使用DBeaver连接hive
介绍在hive命令行beeline中写一些很长的查询语句不是很方便,查询结果也不是很友好,于是找了一个hive的客户端界面工具DBeaver,它也支持很多符合JDBC连接的数据库,例如MySQL、Oracle等。下载地址:http://dbeaver.jkiss.org/download/连接首先新建一个连接(可以看到支持的数据库非常多),选择Apache Hive,点击下一步。转载 2018-01-03 17:00:07 · 12566 阅读 · 5 评论 -
hive1.2版本设置队列问题
环境ambari的hadoop集群使用如下命令设置队列,不生效set mapreduce.job.queuename=hive;之后再网上搜索了一下找到原因了,共享给需要的朋友,hive 1.2版本有引擎之说查看引擎hive> set hive.execution.engine;hive.execution.engine=tez需要使用set tez.queue.nam...原创 2018-10-11 10:44:32 · 1563 阅读 · 0 评论 -
hive函数-数学函数 可在特征工程中使用
hive中数据函数可以直接在提取特征中使用,如 均值、方差、最大值、最小值、协方差等,重点关注以下的聚合函数内容。一、hive函数之数学函数round(double d)--返回double型d的近似值(四舍五入),返回bigint型;round(double d,int n)--返回保留double型d的n位小数double型近似值(四舍五入);floor(double d)--返回&...转载 2018-11-05 15:24:41 · 1319 阅读 · 0 评论 -
hive创建表时COMMENT带中文报错问题处理
环境:CDH 5.5.1hive创建表时带有中文就报错,如下:CREATE TABLE IF NOT EXISTS test(pid bigint COMMENT '测试id',fid int COMMENT 'luntanid')COMMT 'zhuti' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';FAILED: Execu原创 2016-06-12 14:45:52 · 8958 阅读 · 0 评论 -
搭建HIVE数据仓库导入带有中文的HQL及查看表数据时遇到的乱码问题
1、在搭建hive数据仓库完成后,desc 表名 字段描述乱码以及导入带有中文HQL时报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: Transactio原创 2016-06-02 17:28:05 · 1995 阅读 · 0 评论 -
hive优化原则
转载:http://blog.sina.com.cn/s/blog_9f48885501017cq8.html 使用过hive一段时间,发现楼主讲的非常正确。 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select... from A joinB on A.key原创 2016-04-13 14:05:43 · 279 阅读 · 0 评论 -
hive优化思路
转载:http://blog.csdn.net/johnny_lee/article/details/8867632 最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、 调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把! 总的来说原创 2016-04-13 14:05:52 · 422 阅读 · 0 评论 -
使用HIVE注意点
字符集Hadoop和Hive都是用UTF-8编码的,所有中文必须是UTF-8编码, 才能正常使用备注:中文数据load到表里面, 如果字符集不同,很有可能全是乱码需要做转码的, 但是hive本身没有函数来做这个 压缩hive.exec.compress.output 这个参数, 默认是 false,但是很多时候貌似要单独显式设置一遍否则会对结果做压缩的,如果你的这个文件后面原创 2016-04-13 14:06:02 · 435 阅读 · 0 评论 -
hive启动报错 hive.metastore.HiveMetaStoreClient
之前用的是hive-0.90 ,想与hbase整合下,所以更换hive为0.13.1版本,因为偷懒将原来的conf配置文件拷贝,结果出现如下错误,hive.metastore.local,hive.metastore.ds.retry.*是新版本不建议使用,删除配置文件中的内容即可,java.lang.RuntimeException: Unable to instantiate or原创 2016-04-13 14:06:12 · 2646 阅读 · 0 评论 -
设置Hive Map和Reduce的数量增加分析速度
有些时候需要尝试优化Hive的Map和Reduce数量,来达到最佳运行状态,根据实际情况进行数量调整,可以更快速的得到结果。1、增加map数量首先调整上一步reducer生成文件数据,下面可以把reduce设置为160,即生成160个文件set mapred.reduce.tasks=160;create table test asselect * from temp原创 2016-04-13 14:06:30 · 2315 阅读 · 0 评论 -
Hive在Mysql中对应的重要表说明
Mysql作为Hive metaStore的存储数据库。里面大约有20张库表。其中主要涉及到的表如下: 表名 说明 关联键 TBLS原创 2016-04-13 14:08:12 · 2411 阅读 · 0 评论 -
Hive0.13升级到hive0.14步骤
一、升级原因: Hive使用加载分区命令时报错: 只能够是先use middle_table_db,在执行 alter table tagweight add partition(log_date_partition='2015100917') location '/dataquate/data/****/2015原创 2016-04-13 14:25:27 · 479 阅读 · 0 评论 -
指定hive列队
hive-site.sh配置设置hive列队zk的token存储连接串,默认是localhost:2181; hive.cluster.delegation.token.store.zookeeper.connectString ishare.89.bjlt:2181,rm01.103.bjlt:2181,rm02.104.bjlt:2181,ttserver0原创 2016-04-13 14:25:30 · 869 阅读 · 0 评论 -
hive job 提示Invalid sync和 无法分配内存 报错处理
近期发现分析部门同事告知,hive处理原始数据的时候总是不能执行完成,报错如下,这个问题是avro的文件不完整:Diagnostic Messages for this Task:Error: java.io.IOException: java.io.IOException: org.apache.avro.AvroRuntimeException: java.io.IOException原创 2016-04-13 14:27:55 · 2576 阅读 · 0 评论 -
Hadoop监控页面查看Hive的完整SQL
想看看执行的hive job提交了什么语句,有没有方法从hadoop job监控页面查看?方法如下,这里看到简单的一段SQL,几乎看不出具体在执行什么任务。1、点开一个application,点击Tracking URL: ApplicationMaster 或者 History(历史任务显示History),进入到MapReduce Job job_1409xxxx,Jo原创 2016-04-13 14:30:00 · 6321 阅读 · 2 评论 -
hive0.14操作库、表 特别慢,报错,卡顿
hive操作特别慢,报错,卡顿现象:查看所有库拨错hive> show databases;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.thrift.tra原创 2016-04-13 14:30:39 · 3353 阅读 · 0 评论 -
Hive配置文件中配置项的含义详解(收藏版)
hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python ,null的话就是直接执行;hive.e转载 2016-05-10 10:31:47 · 1379 阅读 · 0 评论 -
hive开启严格模式
hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode的值为strict,可禁止3中类型的查询。1)带有分区的表的查询如果在一个分区表执行hive,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。换句话说,就是用户不允许扫描所有的分区。进行这个限制的原因原创 2016-05-10 12:52:28 · 3313 阅读 · 0 评论 -
hive报错Illegal mix of collations (latin1_bin,IMPLICIT) and (utf8_general_ci,COERCIBLE)
业务发现跑hive任务总是一次成功,第二次无法找到库,需要重新进行hive,查看HiveMetaStore日志报错:2016-05-11 11:30:32,912 ERROR [pool-3-thread-178]: metastore.RetryingHMSHandler (RetryingHMSHandler.java:invoke(155)) - Retrying HMSHandle原创 2016-05-12 11:23:47 · 5805 阅读 · 0 评论 -
Hive实现wordCount程序
Hive实现wordCount程序a. 创建一个数据库,如create database word;b. 建表create external table word_data(line string) row format delimited fields terminated by '\n' stored as textfile location '/home/hadoop原创 2016-04-13 14:05:33 · 5149 阅读 · 0 评论