喜欢dollar-CSDN博客

原创 Macbook M2 arm64 Vmware Centos7 各种相关安装包分享

MacBookM2 jdk、hadoop、hive、hbase、spark、zookeeper、sqoop、scala安装包分享

2024-06-27 12:20:36 377

原创 MapReduce的编程开发-合并——头歌

合并是 MapReduce 最为常见的操作，将多个文件合并为一个文件或者将多个文件进行连接操作，最终返回一个文件。使用 map 端合并或者使用 reduce 端合并都是可以进行合并操作。使用 map 端合并，先在 setup() 方法中读取文件,循环读取文件内容并切割，将切割后的数据存入集合中，在 map 方法中获取文件内容并切割，通过切割后的数据去匹配集合中的数据，达到替换操作。

2024-06-20 16:22:31 433

原创每月最火的搜索词——头歌

根据提示，在右侧编辑器补充代码，分析出每年每月哪个搜索词被搜索次数最多。本关任务：分析出每年每月哪个搜索词被搜索次数最多。开始你的任务吧，祝你成功！

2023-05-09 18:57:48 1541

原创分析同一种搜索词，哪个网站域名被用户访问最多——头歌

在右侧编辑器补充代码，分析同一种搜索词，哪个网站域名被用户访问最多，并根据访问次数降序取前十。本关任务：分析同一种搜索词，哪个网站域名被用户访问最多，并根据访问次数降序取前十。开始你的任务吧，祝你成功！

2023-05-09 18:54:37 2104

原创 2018年点击量最高的10个网站域名——头歌

在右侧编辑器补充代码，分析出。开始你的任务吧，祝你成功！

2023-05-09 18:46:55 2047

不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径；为了完成本关任务，你需要掌握： 1.分桶表的创建 2.分桶表的数据加载 3.抽样查询 4.相关表的操作。加载不会有分桶的效果，所有需要借助一张中间表(该表需要与原表字段一致)，先将数据。的大小，决定抽样的比例。

2023-05-09 00:22:06 1580

原创外部分区表——头歌

Hive 创建内部表时（默认创建内部表），会将数据移动到数据仓库指向的路径；在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。为了完成本关任务，你需要掌握： 1.外部分区表的创建 2.数据加载 3.查询分区表。注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。本关任务：根据相关知识内容实现 Hive 外部分区表的操作。），仅记录数据所在的路径，不对数据的位置做任何改变。路径下的日志数据根据时间导入到不同分区中。条件语句查询不同分区表中的数据。

2023-05-09 00:19:29 1483

原创内部分区表——头歌

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。为了完成本关任务，你需要掌握： 1.内部分区表的创建 2.增加与删除分区 2.相关表的操作。注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。本关任务：根据相关知识内容实现 Hive 内部分区表的操作。子句指定，分区的顺序决定了谁是父目录，谁是子目录。加载表数据时指定分区为。的方式添加新的分区。数据切分方式：逗号（

2023-05-09 00:17:14 1793

原创 hive行转列、列转行——头歌

在 Hive 实际开发过程中，我们会遇到“行转列“和“列转行”的场景。比如下面一个例子： 1、需要取“订单号”对应的所有商品“sku 号”，商品“sku 号”放在一列，即从 table1 查询出 table2；2、当商品“sku 号”均在一列的时候，需要查询每个“sku 号”对应的“订单号”，即从 table2 查询出 table1。为了完成本关任务，你需要掌握：1.行列转换的应用场景，2.如何行转列，3，如何列转行。在右侧编辑器补充代码,实现 test1 的行转列操作，test2 的列转行操作。

2023-05-09 00:12:25 1361 2

原创 hive嵌套查询——头歌

你需要在右边的代码框中编写 Hive SQL 语句，实现选出每个部门 Dept 的工资 Salary 最高者的全部信息。嵌套子查询执行顺序先是子查询然后在是主查询。子查询的结果不会被显示，会将其传递给外部查，作为外部查询的条件来输出。平台已经建好需要的表，你只需要完善 Hive SQL 语句，平台会对你编写的代码进行测试。为了完成本关任务，你需要掌握：1.如何进行嵌套查询。执行顺序：先是主查询然后在是子查询。嵌套子查询：执行不依赖于外部的查询。相关子查询：执行依赖于外部查询。

2023-05-09 00:11:14 1788

原创 hive合并查询——头歌

之前的单表查询只是对一张表进行查询，而多表查询需要将两张及两张以上的表进行关联查询。在多表查询中，通常使用表名.列名来对各表中的列进行查询操作。的单表查询，本关主要讲解如何进行多表查询。本关任务：统计查询各班学习Python的人数。根据提示，在右侧编辑器补充代码，统计查询各班学习Python的人数。平台会对你编写的代码进行测试！预期输出： c1 3 c3 2。为了完成本关任务，你需要掌握：1.在之前的实训中，我们已经知道了。数据切分方式均为：英文逗号。

2023-05-09 00:00:38 1916 1

原创 HiveQL简单查询——头歌

对于一个给定的记录，SELECT 指定了要保存的列以及输出函数需要调用的一个或多个列。根据提示，在右侧编辑器 Begin-End 中补充代码，查询股票交易表 total 的前三十条数据。但是有时我们并不想要输出这个表的所有数据，而只是想要部分数据，例如前 10 条，该怎么办呢？点击评测后，平台会对你编写的 HiveQL 语句进行查询，若与预期输出一致，则算通关。在之前的实训中，我们已经了解了如何管理表结构和数据，本关主要讲解如何运行查询。本关任务：查询股票交易表 total 的前三十条数据。

2023-05-08 23:50:51 1421 1

原创内部表与外部表——头歌

Hive 默认创建内部表（managed table），存储位置在 hive.metastore.warehouse.dir 设置，默认位置是 /user/hive/warehouse。导入数据到内部表的时候是将文件剪切（移动）到指定位置，即原有路径下文件不再存在。删除外部表时，仅元数据被删除，HDFS 对应的目录节点不会被删除。例如上述要求为：外部数据的组织是行分割，每个字段之间用逗号分割，每一行数据之间用换行符分割，文件格式为 txt。创建一张名为 student 的内部表，导入上述外部文件的数据。

2023-05-08 23:18:40 3152 1

原创 Hive基本数据类型——头歌

另外，TIMESTAMP 的值可以使整数，即距离 Unix 新纪元时间（1970 年 1 月 1 日，午夜 12 点）的秒数；也可以是浮点数，即精确到纳秒，也可以是字符串，即 JDBC 所约定的时间字符串格式，格式为 YYYY-MM-DD hh:mm:ss.fffffffff。需要注意的是所有的数据类型都是对 Java 中对应的类型是完全一致的。例如，STRING 类型实现的是 Java 中的 String，FLOAT 实现的是 Java 中的 float 等等。Hive的内置数据类型。

2023-05-08 23:08:15 2035 1

m0_68235882的博客