hiveSQL

最新推荐文章于 2023-11-07 09:01:13 发布

ggkkppp

最新推荐文章于 2023-11-07 09:01:13 发布

阅读量2.9k

点赞数

分类专栏： hive 文章标签： hive

hive 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hive提供了很多的函数，可以在命令行下显示函数罗列所有的函数，你会发现这些函数名与mysql的很相近，绝大多数相同的，可通过描述函数functionName查看函数使用方法。

hive支持的数据类型很简单就INT（4字节整数），BIGINT（8 字节整数），FLOAT（单精度），DOUBLE（双精度），BOOLEAN，STRING等原子类型，连日期时间类型也不支持，通过TO_DATE，UNIX_TIMESTAMP，date_diff，DATE_ADD，DATE_SUB等函数就能完成的MySQL同样的时间日期复杂操作。

如下示例：

select * from tablename where to_date（cz_time）> to_date（'2050-12-31'）;

select * from tablename where unix_timestamp（cz_time）> unix_timestamp（'2050-12-31 15:32:28'）;

分区

蜂房与MySQL的分区有些区别，MySQL的分区是用表结构中的字段来分区（范围，列表，散列等），而配置单元不同，他需要手工指定分区列，这个列是独立于表结构，但属于表中一列，在加载数据时手动指定分区。

创建表

hive> CREATE TABLE pokes（foo INT，bar STRING COMMENT'This is bar' ）;

创建表并创建索引字段DS

hive> CREATE TABLE invites（foo INT，bar STRING）PARTITIONED BY（ds STRING）;

显示所有表

配置单元> SHOW TABLES;

按正条件（正则表达式）显示表，

配置单元> SHOW TABLES'。* s';

表添加一列

配置单元> ALTER TABLE pokes ADD COLUMNS（new_col INT）;

添加一列并增加列字段注释

配置单元> ALTER TABLE邀请添加列（new_col2 INT COMMENT'评论'）;

更改表名

配置单元> ALTER TABLE事件RENAME TO 3koobecaf;

删除列

配置单元> DROP TABLE pokes;

元数据存储

将本地文件中的数据加载到表中

配置单元> LOAD DATA LOCAL INPATH'./examples/files/kv1.txt'覆盖表格pokes;

加载本地数据，同时给定分区信息

hive> LOAD DATA LOCAL INPATH'./examples/files/kv2.txt'OVERWRITE INTO TABLE invites PARTITION（ds ='2008-08-15'）;

加载DFS数据，同时给定分区信息

配置单元> LOAD DATA INPATH'/user/myname/kv2.txt'覆盖到表中邀请PARTITION（ds ='2008-08-15'）;

上面的命令将把HDFS文件/目录中的数据加载到表中。请注意，从HDFS加载数据将导致移动文件/目录。结果，这个操作几乎是瞬间的。

SQL操作

按先件查询

配置单元> SELECT a.foo FROM邀请一个WHERE a.ds ='';

将查询数据输出至目录

hive> INSERT OVERWRITE DIRECTORY'/ tmp / hdfs_out'SELECT a。* FROM invites a WHERE a.ds ='';

将查询结果输出至本地目录

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / local_out'SELECT a。* FROM pokes a;

选择所有列到本地目录

配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM profiles a;

配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM配置文件a WHERE a.key <100;

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / reg_3'SELECT a。* FROM events a;

配置单元>插入覆盖目录'/ tmp / reg_4'选择a.invites，a.pokes从配置文件a;

hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT COUNT（1）FROM invites a WHERE a.ds ='';

hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT a.foo，a.bar FROM invites a;

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / sum'SELECT SUM（a.pc）FROM pc1 a;

将一个表的统计结果插入另一个表中

hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT a.bar，count（1）WHERE a.foo> 0 GROUP BY a.bar;

hive> INSERT OVERWRITE TABLE事件SELECT a.bar，count（1）FROM邀请一个WHERE a.foo> 0 GROUP BY a.bar;

加入

hive> FROM pokes t1 JOIN邀请t2 ON（t1.bar = t2.bar）INSERT OVERWRITE TABLE事件SELECT t1.bar，t1.foo，t2.foo;

将多表数据插入到同一表中

从src

INSERT OVERWRITE TABLE dest1 SELECT src。* WHERE src.key <100

INSERT OVERWRITE TABLE dest2 SELECT src.key，src.value WHERE src.key> = 100和src.key <200

INSERT OVERWRITE TABLE dest3 PARTITION（ds ='2008-04-08'，hr = '12'）SELECT src.key WHERE src.key> = 200 and src.key <300

INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out'SELECT src.value WHERE src.key> = 300;

将文件流直接插入文件

hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT TRANSFORM（a.foo，a.bar）AS（oof，rab）USING'/ bin / cat'WHERE a.ds>'2008-08-09';

这通过脚本/ bin / cat（如hadoop流）在地图阶段流数据。同样的 - 流媒体可以用在减少方面（请参阅Hive教程或例子）

实际示例

创建一个表

CREATE TABLE u_data（

用户ID INT，

movieid INT，

评级INT，

unixtime STRING）

行格式DELIMITED

“\ t”字段终止

保存为TEXTFILE;

下载示例数据文件，并解压缩

wget http://www.grouplens.org/system/files/ml-data.tar__0.gz

tar xvzf ml-data.tar__0.gz

加载数据到表中

LOAD DATA LOCAL INPATH'ml-data / u.data'

覆盖到表u_data;

统计数据总量

SELECT COUNT（1）FROM u_data;

现在做一些复杂的数据分析

创建一个weekday_mapper.py：文件，作为数据按周进行分割

导入系统

导入日期时间

对于sys.stdin中的行：

line = line.strip（）

userid，movieid，rating，unixtime = line.split（'\ t'）

生成数据的周信息

weekday = datetime.datetime.fromtimestamp（float（unixtime））。isoweekday（）

print'\ t'.join（[userid，movieid，rating，str（weekday）]）

使用映射脚本

//创建表，按分割符分割行中的字段值

CREATE TABLE u_data_new（

用户ID INT，

movieid INT，

评级INT，

周日INT）

行格式DELIMITED

“\ t”;

//将蟒蛇文件加载到系统

添加文件weekday_mapper.py;

将数据按周进行分割

插入覆盖表u_data_new

选择

TRANSFORM（userid，movieid，rating，unixtime）

使用'python weekday_mapper.py'

AS（userid，movieid，rating，weekday）

FROM u_data;

SELECT weekday，COUNT（1）

FROM u_data_new

GROUP BY工作日;

ggkkppp

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hiveSQL

Hive提供了很多的函数，可以在命令行下显示函数罗列所有的函数，你会发现这些函数名与mysql的很相近，绝大多数相同的，可通过描述函数functionName查看函数使用方法。hive支持的数据类型很简单就INT（4字节整数），BIGINT（8 字节整数），FLOAT（单精度），DOUBLE（双精度），BOOLEAN，STRING等原子类型，连日期时间类型也不支持，通过TO_DATE，
复制链接

扫一扫