![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 95
tinysakurac
蹒跚学步的猿
展开
-
理解Flink中的watermark
转载自hongyuzhou的博客1. Watermark 的理解最早看到 Watermark 的概念就是在 Flink 的官方文档里面:The mechanism in Flink to measure progress in event time is watermarks. Watermarks flow as part of the data stream and carry a timestamp t. A Watermark(t) declares that event time has转载 2021-01-06 14:24:09 · 358 阅读 · 0 评论 -
Hive概述
转载自 lxw1234@qq.com的博客1. Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海...转载 2019-07-12 13:05:28 · 123 阅读 · 0 评论 -
Hive函数指南
转载自 lxw1234@qq.com的博客现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HB...转载 2019-07-12 13:12:07 · 220 阅读 · 0 评论 -
Hive中的库与表
转载自 lxw1234@qq.com的博客在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。先看一张草图:从图上可以看出,Hive作为一个“数据库”,在结构上...转载 2019-07-12 13:23:56 · 1145 阅读 · 0 评论 -
Hive中的视图与分区
转载自 lxw1234@qq.com的博客同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。Hive中的视图和关系型数据库一样,Hive中也提供了视图的功能,注意Hive中视图的特性,和关系型数据库中...转载 2019-07-12 13:30:27 · 4277 阅读 · 0 评论 -
向Hive表中导入数据
转载自 lxw1234@qq.com的博客在Hive中建好表之后,需要将数据加载进来,以便做后续查询分析,本文介绍向Hive表中加载数据的几种方式。建表时候直接指定如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。比如:CREATE [EXTERNAL] TABLE t_l...转载 2019-07-12 13:48:41 · 1093 阅读 · 0 评论 -
Hive查询基础(SELECT)
转载自 lxw1234@qq.com的博客在所有的数据库系统中,SELECT语句是使用最多,也最复杂的一块,Hive中的查询语句SELECT支持的语法当然也比较复杂,本文只能尽力去介绍。基础查询语法Hive中的SELECT基础语法和标准SQL语法基本一致,支持WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查询等;语法如下:[WITH Com...转载 2019-07-12 13:57:49 · 1053 阅读 · 0 评论 -
Hive中join的类型与用法
转载自 lxw1234@qq.com的博客Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。注意:Hive中Join的关联键必须在ON ()中指定,不能在Where中指定,否则就会先做笛卡尔积,再过滤。数据准备hive> desc lxw1234_a;OKid ...转载 2019-07-12 14:09:34 · 260 阅读 · 0 评论 -
HQL优化
转载自 lxw1234@qq.com的博客本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。其中大部分是我之前发过的博客文章,这里整理了下。使用分区剪裁、列剪裁在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,...转载 2019-07-12 14:18:53 · 403 阅读 · 0 评论