hive
jy02268879
这个作者很懒,什么都没留下…
展开
-
【一】hive安装(远程metastore)
前期:请先安装jdk和hadoop和mysqljdk安装hadoop分布式安装mysql安装环境ubuntu16.04下载http://mirrors.tuna.tsinghua.edu.cn/apache/hive/rz上传安装包到服务器解压tar -zxvf apache-hive-2.3.3-bin.tar.gz修改名字文件名字mv apa...原创 2018-06-05 00:53:01 · 1021 阅读 · 0 评论 -
【十三】hive 子查询
子查询SELECT colFROM ( SELECT a+b AS col FROM t1) t2SELECT t3.colFROM ( SELECT a+b AS col FROM t1 UNION ALL SELECT c+d AS col FROM t2) t3SELECT *FROM AWHERE A.a IN (SELECT fo...原创 2018-07-31 22:52:28 · 497 阅读 · 0 评论 -
【十四】hive 表生成函数Table-Generating Functions
Table-Generating Functions官网介绍 Row-set columns types Name(Signature) Description int,T posexplode(ARRAY<T> a) Explodes an array to multiple rows with ad...原创 2018-07-31 23:35:49 · 659 阅读 · 0 评论 -
【十五】hive常用内置函数之Mathematical、Collection、Conditional、Type Conversion Functions
常用内置函数官网介绍Mathematical Functions Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. ...原创 2018-08-01 00:01:16 · 541 阅读 · 0 评论 -
【十六】hive常用内置函数之Date Functions
Date Functions Return Type Name(Signature) Description Return Type Name(Signature) Description string from_unixtime(bigi...原创 2018-08-01 00:03:00 · 2619 阅读 · 0 评论 -
【十七】hive常用内置函数之String Functions
String Functions Return Type Name(Signature) Description Return Type Name(Signature) Description int ascii(string str) ...原创 2018-08-01 00:04:00 · 2795 阅读 · 0 评论 -
【十八】hive常用内置函数之聚合函数Aggregate Functions
Aggregate Functions Return Type Name(Signature) Description BIGINT count(*), count(expr), count(DISTINCT expr[, expr...]) count(*) - Returns ...原创 2018-08-01 00:05:33 · 2931 阅读 · 0 评论 -
【十九】hive数据类型
普通数据类型复杂数据类型Complex Type Constructors Constructor Function Operands Description map (key1, value1, key2, value2, ...) Creates a map with ...原创 2018-08-01 00:10:23 · 141 阅读 · 0 评论 -
【二十】hive自定义函数开发
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...原创 2018-08-01 01:06:38 · 2896 阅读 · 0 评论 -
【二十一】hive桶表
Bucketed Sorted Tables(桶表)理论桶表是对数据进行哈希取值,然后放到不同文件中存储。数据加载到桶表时,会对字段取hash值,然后与桶的数量取模。物理上,每个桶就是表(或分区)目录里的一个文件。分桶表加载数据不能使用load。采用桶能够带来一些好处:1.提升查询效率。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶...原创 2018-08-21 23:49:16 · 503 阅读 · 0 评论 -
【十一】hive窗口函数、分析函数Windowing and Analytics Functions
窗口函数是最后执行,仅在order by之前。创建表用于测试USE sid;CREATE TABLE buy_record(id INT COMMENT'购买记录id',user_name STRING COMMENT'用户名',buy_date STRING COMMENT'购买日期',goods_id INT COMMENT'商品id',price DOUBLE COM...原创 2018-07-31 22:21:07 · 498 阅读 · 0 评论 -
【十】hive DQL之join、union
joinjoin_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN t...原创 2018-07-31 17:56:32 · 320 阅读 · 0 评论 -
【二】hive概述
Hive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。它是构建在Hadoop之上的一个数据仓库,它的数据放在HDFS之上,最初计算框架用的MapReduce,现在支持多种计算引擎如Spark、Tez。它定义了一种类SQL查询语言简称HQL。Hive通常用来进行离线数据处理的。支持多种不同的压缩格式(GZIP、LZO、Snappy、BZIP2...)、存储格式(Tex...原创 2018-07-24 05:07:27 · 340 阅读 · 0 评论 -
【四】hive DDL之create/drop/truncate table
中括号是必填,方括号是选填。官网介绍创建CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comme...原创 2018-07-24 23:34:50 · 628 阅读 · 0 评论 -
【七】HBase集成Hive(Hive On HBase)
使用场景1.通过Hive把数据加载到HBase中,数据源可以是文件也能是表。HBase集成Hive后,hive表数据增加的同时,HBase中的数据也会增加。2.HBase的查询不支持join和group by。可以通过Hive整合HBase的方式让HBase支持这些操作(先把HBase的数据加载到Hive中,通过Hive的语法来join和group by)。3.HBase实时的插入数据...原创 2018-08-03 18:40:30 · 5277 阅读 · 2 评论 -
【三】hive DDL之create/drop/alter databases/schema
创建CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];删除DROP (DATABASE|SCHEMA)...原创 2018-07-31 00:48:08 · 1113 阅读 · 0 评论 -
【五】hive DDL之Alter Table/Partition/Column
Alter Table允许修改已有表的表结构,例如添加、删除列、改变SerDe、重命名表名。重命名表明ALTER TABLE table_name RENAME TO new_table_name;修改表的属性可以用这个命令增加表的元数据。last_modified_user, last_modified_time properties这三个数据是Hive自动管理创建的。...原创 2018-07-31 01:42:36 · 9294 阅读 · 0 评论 -
【六】hive DDL之Show
Show DatabasesSHOW (DATABASES|SCHEMAS) [LIKE 'identifier_with_wildcards'];Show Tables/Views/Partitions/IndexesShow TablesSHOW TABLES [IN database_name] ['identifier_with_wildcards'];Show V...原创 2018-07-31 01:58:45 · 1805 阅读 · 0 评论 -
【七】hive DML之load/insert/update/delete/merge
Load把文件中的数据加载到表中。LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE t...原创 2018-07-31 15:58:33 · 913 阅读 · 0 评论 -
【八】hive DML之import/export
export可以把hive表或分区中的数据随着元数据一起导出到指定的路径下。导出的数据可以被移动到其他的hadoop、hive中去。在其他的hadoop、hive中想要用export出的数据,就要使用import命令。导出一个表的分区,原始数据能够被加载到不同的HDFS中。也可以导出/导入一个分区的子集。导出/导入的元数据库可以不一样,比如derby到mysql。EXPORT...原创 2018-07-31 16:13:13 · 260 阅读 · 0 评论 -
【九】hive DQL之SELECT、WHERE、ALL 、DISTINCT、GROUP BY | HAVING、LIMIT 、ORDER BY、SORT BY
selectSELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY ...原创 2018-07-31 17:39:09 · 481 阅读 · 0 评论 -
【二十二】hive 优化
参考数据分析利器之hive优化十大原则Hive SQL的优化一 使用分区剪裁、列剪裁在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,比如:SELECT a.idFROM lxw1234_a aleft outer joint_lxw1...原创 2018-08-22 00:26:56 · 182 阅读 · 0 评论