hive 增加表字段语录_添加一列并增加列字段注释

最新推荐文章于 2024-08-04 03:41:30 发布

weixin_39617669

最新推荐文章于 2024-08-04 03:41:30 发布

阅读量2.4k

点赞数

文章标签： hive 增加表字段语录

本文链接：https://blog.csdn.net/weixin_39617669/article/details/111882863

版权

本文介绍了Hive数据仓库工具，它允许通过SQL查询Hadoop数据。讨论了Hive的三种表类型：普通表、外部表和分区表，并提供了创建、修改和管理表的示例，包括增加列、添加列注释等操作。

摘要由CSDN通过智能技术生成

HIVE是什么

来自度娘百科的解释：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

简单来说，就是用QL这种语言的方式来完成MapReduce程序的工作，由于大多数程序员都会写基于关系型数据库的SQL，那么HIVE的出现也就将Hadoop上的开发降低了很多门槛。

Hive常见的参数

io.sort.mb设置数据缓冲区的小大

HIVE基础语句

创建表

Hive的表，与普通关系型数据库，如mysql在表上有很大的区别，所有hive的表都是一个文件，它是基于Hadoop的文件系统来做的。

hive总体来说可以总结为三种不同类型的表。

1. 普通表

普通表的创建，如上所说，不讲了。其中，一个表，就对应一个表名对应的文件。

2. 外部表

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径(LOCATION)，Hive 创建内部表时，会将数据移动到数据仓库指向的路径;若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。具体sql如下：

Java代码

CREATE EXTERNAL TABLE test_1(id INT, name STRING, city STRING) SORTED BY TEXTFILE ROW FORMAT DELIMITED‘\t’ LOCATION ‘hdfs://../../..’

3. 分区表

有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。具体SQL如下：

Java代码

CREATE TABLE test_1(id INT, name STRING, city STRING) PARTITIONED BY (pt STRING) SORTED BY TEXTFILE ROW FORMAT DELIMITED‘\t’

Hive的排序，因为底层实现的关系，比较不同于普通排序，这里先不讲。桶的概念，主要是为性能考虑，可以理解为对分区内列，进行再次划分，提高性能。在底层，一个桶其实是一个文件。如果桶划分过多，会导致文件数量暴增，一旦达到系统文件数量的上限，就杯具了。哪种是最优数量，这个哥也不知道。

分区表实际是一个文件夹，表名即文件夹名。每个分区，实际是表名这个文件夹下面的不同文件。分区可以根据时间、地点等等进行划分。比如ÿ

最低0.47元/天解锁文章

weixin_39617669

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫