HIVE和sql

最新推荐文章于 2024-04-17 14:53:07 发布

serenysdfg

最新推荐文章于 2024-04-17 14:53:07 发布

阅读量442

点赞数

分类专栏：数据库大数据文章标签： sql hive

本文链接：https://blog.csdn.net/serenysdfg/article/details/100831648

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

数据库

12 篇文章 0 订阅

订阅专栏

Hive常用命令：

https://www.cnblogs.com/starzy/p/11441131.html

https://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=2694182433&idx=1&sn=687b754cddc7255026434c683f487ac0#rd

假设有数据库 fm_data，里面有表格 shield_fm_feature_item_ctr
show databases; //列出数据库
desc database fm_data; // 展示数据库 fm_data 的信息
use fm_data; // 使用某个数据库 fm_data\
set hive.cli.print.current.db=true; 显示列头
set hive.cli.print.current.db=false; 关闭列头

show tables; // 展示这个数据库里面的所有表格
show tables in fm_data; // 展示数据库 fm_data 里面的所有表格
show tables like '*ctr*'; // 模糊查找
show create table shield_fm_feature_item_ctr; // 获得表格 shield_fm_feature_item_ctr 的建表语句，其中包括表格的字段，HDFS 的 location 等信息
desc shield_fm_feature_item_ctr; // 展示表格 shield_fm_feature_item_ctr 的字段以及字段类型
desc formatted shield_fm_feature_item_ctr; // 详细描述表格 shield_fm_feature_item_ctr，包括表格的结构，所在的 database，owner，location，表格的类型 (Managed Table or External Table)，存储信息等

1 Hive与关系型数据库的区别？

Hive-sql与SQL的区别：https://blog.csdn.net/zengmingen/article/details/78412604

https://blog.csdn.net/qq_15103205/article/details/72912538

1 Hive 与 HDFS 之间的联系

（1）hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

（2）Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，使用HDFS存储，使用mapreduce计算；Hive的本质是将Hql转化为mapreduce；

⑵区别：

①数据库可以用在Online的应用中，Hive主要进行离线的大数据分析；

②数据库的查询语句为SQL，Hive的查询语句为HQL；

③数据库数据存储在LocalFS，Hive的数据存储在HDFS；

④Hive执行MapReduce，MySQL执行Executor；

⑤Hive没有索引；延迟性高；可扩展性高；数据规模大；

Sql

分区表：https://blog.csdn.net/smallfools/article/details/4930810

Union all和union区别：前者不删除重复行

Join：当一个大表和一个或多个小表JOIN时，您可以使用MAPJOIN提升性能。

UDF和hive

首先我们学习hadoop的时候，为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程，Hive被设计出来了。Hive就好比是hadoop在执行MR（mapreduce）程序的一个操作系统，因为我们可以用简单的SQL语句去代替复杂的MR程序，因为Hive可以将我们的SQL语句转化为MR程序然后去执行。Hive的语法和SQL的语法很多地方是相同的，所以说它就是为熟连使用SQL的工程师设计的。

首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数。

首先UDF必须用java语言编写，Hive本身就是用java写的。所以想学好hadoop这个分布式框架的相关技术，熟练使用java就是基本功了！

Hive中有三种UDF:(普通)UDF、用户定义聚集函数（user-defined aggregate function，UDAF）、用户定义表生成函数（user-defined table-generating function，UDTF）。

UDF操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。

UDAF 接受多个输入数据行，并产生一个输出数据行。想COUNT和MAX这样的函数就是聚集函数。

UDTF 操作作用于单个数据行，并且产生多个数据行-------一个表作为输出

学习资源

https://seawaylee.github.io/2017/07/02/%E5%A4%A7%E6%95%B0%E6%8D%AE/Hive/Hive%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89-%20%E8%AF%A6%E8%A7%A3Hive/

serenysdfg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HIVE和sql

函数coalesce()解释：返回参数中的第一个非空表达式（从左向右）；Sql代码 select coalesce(a,b,c); 如果a==null,则选择b；如果b==null,则选择c；如果a!=null,则选择a；如果a b c 都为null ，则返回为null（没意义）。Hive-sql与SQL的区别：https://blog.csdn.net/zengmingen...
复制链接

扫一扫