Hive
筱Mary
这个作者很懒,什么都没留下…
展开
-
Hive中select * 没有数据,而select count(*)有数据解决方法
刚接触Hive,之前建表都是 external 表,这种表就是基于有外部.csv数据文件的,只要在建表时指明location,然后再将数据文件放到该路径就OK,今天建了一张普通表,发现这里面的数据不正常,我用select * from table_name没有数据,但是select count(*)明明有300行数据,从头检查到尾,发现我建普通表的时候,竟然加上了location! 我是这样写的(原创 2016-08-04 15:01:52 · 8945 阅读 · 0 评论 -
Hive数据导出三种方式
今天我们再谈谈Hive中的三种不同的数据导出方式。 根据导出的地方不一样,将这些方式分为三种: (1)、导出到本地文件系统; (2)、导出到HDFS中; (3)、导出到Hive的另一个表中。 为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统hive> insert overwrite local directory '/home/wyp/wyp' > sel转载 2017-07-18 17:28:40 · 6860 阅读 · 0 评论 -
Hive Metastore 启动成功又失败
hive 在正常使用中 metastore 忽然停掉,查看日志,报一下错误:2017-06-19 12:11:15,134 ERROR [main]: metastore.HiveMetaStore (HiveMetaStore.java:startMetaStore(6080)) - org.apache.thrift.transport.TTransportException: Could no原创 2017-06-19 15:32:18 · 9453 阅读 · 0 评论 -
Hive解决SQL的join or
在处理数据时,遇到join on的条件有多个,然而hive不支持on or,因此问了度娘,找了google才发现这东西还涉及hive优化,吭哧了一下午终于弄出来,心情豁然开朗,希望本文能帮到遇到难题的你们。 我的一个表是有关电话号码的,另一个表是解析这个电话号码的,分析号码的省,市,服务商,手机号就取前7位获得省市服务商,固话就取前3/4位,所以问题就来了,join 后面的条件有多个,要是sql是原创 2016-08-02 16:11:18 · 20231 阅读 · 6 评论 -
hive查看是外部表还是内部表
我知道的有两个方法: 第一种方法是 进入hive,执行 describe extended tablename; 查看表的详细信息。 如果是外部表,在详细信息的最后一行,会输出 tableType:EXTERNAL_TABLE 如果是内部表/管理表,则会显示tableType:MANAGD_TABLE如果是外部表,则会显示tableType:EXTERNAL_TABLE第二种方法是 在hi原创 2016-11-08 15:57:19 · 12478 阅读 · 0 评论 -
[翻译]Hive的Security配置
为了更好地使用好Hive,我将《Programming Hive》的Security章节取出来,翻译了一下。 Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用。Hive由一个默认的设置来配置新建文件的默认权限。<property> <name>hive.files.umask.value</name> <value>0002</value> <descripti转载 2017-05-03 18:23:15 · 1584 阅读 · 0 评论 -
Hive 的insert into 和 insert overwrite
1、insert into 语句Hive> insert into table account select id,age,name from account_tmp;2、insert overwrite语句hive> insert overwrite table account2 select id,age,name from account_tmp;插入的数据: 001 20 zhangs原创 2017-04-28 14:49:27 · 113264 阅读 · 2 评论 -
Hive 强制删除数据库
删除数据库时,遇到如下问题FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database tmp is not empty. One or more tables exist.)是因为数据库中有表不能直接删除,原创 2017-03-08 09:25:41 · 20622 阅读 · 1 评论 -
Hive UI 界面的访问方法
环境:hdp 2.4hdp 2.4 对应的hive版本是1.2.1如果是hdp 2.4 以及以下的版本,可以参考HDP2.4 及以下各组件版本安装Hive hwi 的方法:1. 下载源代码,根据自己的hive版本下载 http://archive.apache.org/dist/hive/apache-hive-1.2.1-src.tar.gz2. 解压后将 ./hwi/web/ 目录打包成 hiv原创 2016-12-13 16:23:06 · 8649 阅读 · 0 评论 -
用正则表达式匹配电话号码
在hive中,使用正则表达式来筛选电话号码,电话号码不像手机号一样,电话比较难匹配,需要考虑的情况也比较多,所以在这里我使用正则表达式匹配所有的电话号码,比较长,只要用耐心就比较好整理。 号码由数字或‘-’组成,位数在10到12位之间,其中区号3-4位,号码7-8位length(regexp_replace(receiver,'-',''))<=12 and (substr(receiver,原创 2017-01-19 14:06:40 · 3259 阅读 · 0 评论 -
hive上一种通用的拉链记历史方法
数据仓库中针对历史数据的记录方法一般有3种方法 1.保存最新记录,用最新数据计算历史数据 2.快照,针对每天保留全量数据 3.拉链记历史,每天针对变化的数据记录其生命周期 上面3种各有优势,主要体现的存储空间占用、下游任务使用成本、是否能回溯历史,整体上是不同应用场景下要有不同选择。 针对拉链记历史一种通用的方法是对每条数据记录下生命周期begin_date,end_date;这咱转载 2017-02-09 12:20:36 · 1896 阅读 · 0 评论 -
Hive 转换数据类型后导入表
Hive 的内置数据类型可以分为两大类:基础数据类型和复杂数据类型。其中基础数据类型包括 tinyint,smallint,int,bigint,boolean,float,double,string,binary,timestamp,decimal,char,varchar,date 复杂类型包括array,map,struct,union,这些复杂类型是由基础类型组成的。 而hive数据类型原创 2016-11-23 18:28:35 · 1523 阅读 · 0 评论 -
hive分区(partition)简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节 1、一个表可以拥有一个或者多个分区转载 2016-11-08 17:35:47 · 1522 阅读 · 0 评论 -
Hive join 优化实战
由于 hive 与传统关系型数据库面对的业务场景及底层技术架构都有着很大差异,因此,传统数据库领域的一些技能放到 Hive 中可能已不再适用。关于 hive 的优化与原理、应用的文章,前面也陆陆续续的介绍了一些,但大多都偏向理论层面,本文就介绍一个实例,从实例中一步步加深对 hive 调优的认识与意识。1、需求需求我做了简化,很简单,两张表做个 join,求指定城市,每天的 pv,用传统的 RDBM转载 2016-08-02 14:12:28 · 3571 阅读 · 0 评论 -
hive表信息查询:查看表结构、表操作等
问题导读: 1.如何查看hive表结构? 2.如何查看表结构信息? 3.如何查看分区信息? 4.哪个命令可以模糊搜索表1.hive模糊搜索表show tables like ‘name‘;2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分转载 2016-08-01 18:53:52 · 887 阅读 · 0 评论 -
beeline 使用
最近对hive设置权限,具体设置权限的方法请参考http://blog.csdn.net/qq_31382921/article/details/71133323,使用beeline的时候总会出现各种小问题,毕竟还是跟hive有点区别。beeline 常用语法: 1. beeline -u “jdbc:hive2://nn02:10000/default” -n maxiaoli -e “sel原创 2017-06-29 19:03:19 · 31914 阅读 · 0 评论