bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

hive中的集合操作函数

map类型大小:size array类型大小:size 判断元素数组是否包含元素:array_contains 获取map中所有value集合 获取map中所有key集合 数组排序

2018-01-18 10:26:46

阅读数 2135

评论数 0

hive多行变一行

1.需求描述在数据处理过程中,我们不光要将一行变为多行,有时候还需要将多行变为一行。 有如下格式的数据: msgid appid 1490549504092 1002496 1490549504092 1002505 1490549504105 1005565 149054950410...

2017-03-31 17:38:17

阅读数 1988

评论数 0

一条拼了40min的hql引发的思考

周末加班,拼一条hql花了40min,里面有许多小细节,特别记录下来方便以后使用。1.表结构hive表里存的是个thrift结构。我们关注的主要字段如下:struct UploadDataItem { 1:optional string channel; 2:optional string dat...

2017-03-19 15:17:43

阅读数 1569

评论数 0

关于Hive数据仓库的那些事儿(一)模式设计

作者李程,北京市种子管理站站长,人称李站长,友盟数据平台Hive数据仓库扛把子工程师。数据仓库的起源可以追溯到计算机与信息系统发展的初期。它是信息技术长期复杂演化的产物,并且直到今天这种演化仍然在继续进行着。而数据仓库容易让人糊涂的地方在于它是一种体系结构,而不是一种技术。这点使得许多技术人员和风...

2016-11-29 22:57:39

阅读数 3550

评论数 0

hive lateral view 与 explode详解

1.explodehive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDT...

2016-07-16 21:28:14

阅读数 51948

评论数 0

hive 窗口函数 应用场景与实战详解

hive中的窗口函数,功能非常强大,使用也比较方便,可以给我们的查询提供相当多的遍历。下面就结合具体的需求与实例,一一为大家讲解窗口函数的使用方法。1.数据准备先在hive数据库中建一张表,表的结构如下:hive (tmp)> desc phone_test; OK calling_num ...

2016-06-23 18:40:31

阅读数 2037

评论数 0

hive order by sort by distribute by总结

mysql中有order by函数,而且是使用频率相当高的一个函数。之前看过一个数据,说计算机25%的工作量都用在排序上面(数据的真伪性没有考证)。从这也就不难看出为什么数据库里order by的操作这么重要了。hive中除了order by以外,还有sort by。这两有什么区别,跟mysql里...

2016-06-16 20:56:45

阅读数 6465

评论数 0

hive join 数据倾斜 真实案例

hive或者MR处理数据,不怕数据量大,就怕倾斜。本博主就遇到了一个真实案例,特意记录下来,有需要的同学可以参考1.查了5个小时还没结束的sql语句set mapred.reduce.tasks = 30; insert overwrite directory 'xxx' select cus.i...

2016-06-16 19:14:02

阅读数 6890

评论数 5

hive 时间函数 总结

做数据挖掘的,离不开使用各种时间函数。 为了避免遗忘,以及后续各种抓瞎到处乱找,特意总结了hive中大部分常用的时间函数,方便自己也方便他们。1.unix_timestamp()返回当前时区的unix时间戳 返回类型:bigint hive (tmp)> select unix_tim...

2016-06-14 13:05:49

阅读数 24432

评论数 1

hive表加载数据的不同方式

1.建表时候指定location如果数据在hdfs上存好,并且是结构化的数据。最常见的就是按天增量的结构化的日志或者计算结果,此时这部门数据基本不用后期维护,只需要后台程序每天正常运行。这样,在建表的时候直接用location指定即可。create external table rpt_searc...

2016-04-27 14:50:56

阅读数 1666

评论数 0

hive udf开发超详细手把手教程

关于hive的udf介绍,就不多啰嗦了。网上的教程一抓一大把,也可以上apache的官网去查阅相关资料,我就省了翻译的时间了。重点给大家带来干货,手把手教会你怎样开发一个udf函数,已经如何部署到服务器上的hive环境中运行。用最简单的话来说,就是教大家怎么让自己开发的udf跑起来。。。项目需求做...

2016-04-26 11:46:34

阅读数 32621

评论数 2

hive 正则表达式详解

hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。1.regexp语法: A REGEXP B 操作类型: strings 描述: 功能与RLIKE相同select count(*) from olap...

2016-04-09 18:56:22

阅读数 46020

评论数 1

hive like与rlike的区别

like与rlike的区别: like不是正则,而是通配符。这个通配符可以看一下SQL的标准,例如%代表任意多个字符。 rlike是正则,正则的写法与java一样。'\'需要使用'\\',例如'\w'需要使用'\\w' hive> select "aaaaa" like...

2016-03-28 14:55:31

阅读数 54331

评论数 0

hive 复合结构Map、Struct详解

Map详解 hive里支持map的结构如下: (key1, value1, key2, value2, ...) Creates a map with the given key/value pairs 建表语句: create table test_map(name string...

2016-03-22 19:33:51

阅读数 5300

评论数 0

hive基本命令

建表语句,表中有map结构: hive> create table test_score(name string, score map) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY...

2016-03-22 19:30:13

阅读数 734

评论数 0

hive partition 分区详解二

hive建分区表 create external table if not exists cheap_hotel_user(device string, booking_freq int, book_price string) partitioned by (day string) row ...

2016-03-19 23:24:44

阅读数 5827

评论数 0

hive partition 分区详解一

一.查看分区命令 1.show partitions xxx hive> show partitions xxx; OK day=20150908 day=20151020 day=20151021 day=20151022 ... day=20160318 Time taken: 0.13...

2016-03-19 22:42:40

阅读数 17609

评论数 0

hive应用实例 将查询结果写入原表中

实例: hive> select * from zzz; OK leilei    18 lucy    19 xiaoqi    20 xxxx    21 yyyy    22 hive> insert overwrite table zzz ...

2016-03-16 16:03:27

阅读数 976

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭