傻到鼻涕冒泡-CSDN博客

原创 Hive外部表

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据，删除hive表的时候，数据仍然保存在hdfs中，不会删除。注：删除外部表时，只会删除MySQL上对应的元数据，不会删除HDFS上面的数据。二.外部表建表语句（external关键字）

2024-06-04 22:47:33 543 1

- 分区的字段不要和表的字段相同。-- 演示多拷贝一行上传，分区的列的值是分区的值，不是原来的值。--注意：前后两个分区的关系为父子关系，也就是grade文件夹下面有多个clazz子文件夹。注：当表中分区关键字的数据不对时，仍会加载到分区文件当中，select出来的数据会是分区关键字的数值。把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了。但是HDFS中文件的数据不会改变，只是查询出来的数据会改变。分区的目的：避免全表扫描，加快查询速度！一.Hive分区的概念。

2024-06-04 22:46:26 287 1

原创 Hive的建表与加载数据

* 将Linux本地上的/data目录下面的students.txt数据移动至students表对应的HDFS 目录下，注意是移动、移动、移动 /* load data local inpath '/data/students.txt' overwrite into table students;// 必选，指定列分隔符。/* 将HDFS上的/input1目录下面的students.txt数据移动至students表对应的HDFS 目录下，注意是移动、移动、移动 /*三.指定存储格式的建表。

2024-06-04 22:45:46 1200 1

原创 Hive的基本操作

取值范围：0000-01-01 00:00:00.000000000~9999-12-31 23.59:59.999999999，精确到纳秒。注：此时的bigdata30_test3数据库存储的位置是在/bigdata30目录下的luyunlongdb文件，所以说hdfs路径最后的文件名称不一定要和数据库的名称相同，只是表示一种映射关系。取值范围：0000-01-01 00:00:00.000~9999-12-31 23.59:59.999，精确到毫秒。取值范围：-2 31 ~2 31 -1。

2024-06-03 23:06:47 338

原创 Hive的搭建与配置

2、创建hive-site.xml配置文件。

2024-06-03 23:05:43 1545

原创 Hive概述与架构

Hive的本质是将SQL转换成MapReduce的任务进行计算。底层又HDFS来提供数据存储，即hive可以理解为一个将SQL转换为MR任务的工具。面试题：什么是Hive？1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互的sql，在海量数据中查询分析得到结果的平台。

2024-06-03 23:05:08 199

qq_67715741的博客