Hive
Terry_dong
我只是个搬运工
展开
-
Hadoop Hive概念学习系列之hive里的用户定义函数UDF
Hive可以通过实现用户定义函数(User-Defined Functions,UDF)进行扩展(事实上,大多数Hive功能都是通过扩展UDF实现的)。想要开发UDF程序,需要继承org.apache.hadoop.ql.exec.UDF类,并重载evaluate方法。Hive API提供@Description声明,使用声明可以在代码中添加UDF的具体信息。在Hive中可以使用DESCRIBE语...原创 2018-04-22 16:15:35 · 506 阅读 · 0 评论 -
hive表的存储格式; ORC格式的使用
hive表的源文件存储格式有几类: 1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以<key,value>...原创 2018-04-22 16:12:38 · 556 阅读 · 0 评论 -
HIVE External&TBLPROPERTIES
HIVE External&TBLPROPERTIES1.Externalhive中有两种表:外部表和内部表(managed and external)。可以通过desc formatted table_name 命令来查看表的信息,来辨别表是外部表还是内部表。 内部表的文件,元数据和统计信息等由hive进行管理,被存储在hive.metastore.warehouse.dir 目录下,当...原创 2018-04-21 21:13:25 · 1915 阅读 · 0 评论 -
hive中所有join
1. 内连接:inner join --join优化:在进行join的时候,大表放在最后面 --但是使用 /*+streamtable(大表名称)*/ 来标记大表,那么大表放在什么位置都行了 select /*+streamtable(s)*/ s.ymd,d.dividend from stocks s inner join dividends d on s.ymd=d.ymd and s.s...原创 2018-04-21 21:12:19 · 476 阅读 · 0 评论 -
Hive分区、分桶和索引
1.分区 分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。 (1)静态分区create table if not exists sopdm.wyp2(id int,name string,tel string)partitioned by(age int)row format delimitedf...原创 2018-04-21 21:10:40 · 320 阅读 · 0 评论 -
hive注意点
--自动补全功能:tab键 --可以把“设置系统属性变量,增加hadoop分布式内存,自定义hive扩展的jar包”放在“$HOME/.hiverc”文件中 --在hive的CLI中执行bash shell命令,只要在命令前加上!,并且以分号(;)结尾就可以! /bin/echo “what up dog”; --在hive中使用hadoop的dfs命令dfs -ls /; --查看表的存...原创 2018-04-21 21:08:40 · 296 阅读 · 0 评论 -
Hive,Hbase,HDFS等之间的关系
Hive:Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。HDFS:HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS为他们提供了高可...原创 2018-04-21 21:07:27 · 305 阅读 · 0 评论 -
Hive---外部分区表的创建
hive> create external table tv2(id int,name string,sex string) partitioned by(day int) > row format delimited > fields te...原创 2018-04-21 21:06:10 · 280 阅读 · 0 评论 -
Hive的元数据信息
Hive将表中的元数据信息存储在数据库中,如derby(自带的)、Mysql(实际工作中配置的)。通过Mysql进行示例说明:Hive数据仓库中: MySql数据库中存储的相应元数据信息: Navicate(远程连接的MySql)对应的元数据信息: Hive中创建的表在hive中可以看到正常的数据,但是在mysql中只能查到hive中表的元数据信息。...原创 2018-04-21 21:04:23 · 1625 阅读 · 0 评论 -
使用MSCK命令修复Hive表分区
转载网址: http://blog.csdn.net/opensure/article/details/51323220 http://www.cnblogs.com/chinhr/archive/2007/10/17/927506.html http://blog.csdn.net/sparkexpert/article/details/51024392?locationNum=5&fp...原创 2018-04-21 21:03:10 · 1555 阅读 · 0 评论 -
Hive内部表、外部表、分区表以及外部分区表创建以及导入数据实例讲解
源数据格式:[dd_edw@BJHC-Client-144113 zhang_dd_edw]$ more data.txt25502#hdfs://ns1/user/dd_edw/adm.db/adm_dealer_order_list_di_big/dt=2015-07-1525499#hdfs://ns1/user/dd_edw/adm.db/adm_dealer_order_list_d...原创 2018-04-21 20:57:00 · 633 阅读 · 0 评论 -
Hive架构以及应用介绍
Hive这个框架在Hadoop的生态体系结构中占有及其重要的地位,在实际的业务当中用的也非常多,可以说Hadoop之所以这么流行在很大程度上是因为Hive的存在。那么Hive究竟是什么,为什么在Hadoop家族中占有这么重要的地位,本篇文章将围绕Hive的体系结构(架构)、Hive的操作、Hive与Hbase的区别等对Hive进行全方面的阐述。 在此之前,先给大家介绍一个业务场景,让大家感受一下为...原创 2018-04-21 20:55:31 · 598 阅读 · 0 评论 -
hive中UDF、UDTF、UDAF快速上手
在hive中新建表”apache_log”CREATE TABLE apachelog ( host STRING, identity STRING, user STRING, time STRING, request STRING, status STRING, size STRING, referer STRING, agent STRING)ROW FO...原创 2018-04-22 16:34:37 · 1092 阅读 · 0 评论 -
Hive UDAF开发详解
说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。udfa是hive中用户自定义的聚集函数,hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用两种方式,简...原创 2018-04-22 16:32:35 · 813 阅读 · 0 评论 -
hive—UDF操作
udf的操作过程:在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数。 下面就以下面课题为例:课题:统计每个活动的PV和UV一、Java通过正则表达式,截取标题名称。以链接,截取标红的字符串。http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffw...原创 2018-04-22 16:18:02 · 398 阅读 · 0 评论 -
hive数据库设计中的拉链表、增量表、全量表
1) 存量、流量、增量(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量=流入量--流出量(5)本期期末存量=上期期末存量+本期内增量2) 拉链表:注意事项(1)记录一个事物从开始,一直到当前状态的所有变化的信息;(2)拉链表每次上报的都是历史记录的最终状态,是记录在当前...原创 2018-06-05 09:58:48 · 1004 阅读 · 0 评论