自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Macbook M2 arm64 Vmware Centos7 各种相关安装包分享

MacBookM2 jdk、hadoop、hive、hbase、spark、zookeeper、sqoop、scala安装包分享

2024-06-27 12:20:36 377

原创 MapReduce的编程开发-合并——头歌

合并是 MapReduce 最为常见的操作,将多个文件合并为一个文件或者将多个文件进行连接操作,最终返回一个文件。使用 map 端合并或者使用 reduce 端合并都是可以进行合并操作。使用 map 端合并,先在 setup() 方法中读取文件,循环读取文件内容并切割,将切割后的数据存入集合中,在 map 方法中获取文件内容并切割,通过切割后的数据去匹配集合中的数据,达到替换操作。

2024-06-20 16:22:31 433

原创 每月最火的搜索词——头歌

根据提示,在右侧编辑器补充代码,分析出每年每月哪个搜索词被搜索次数最多。本关任务:分析出每年每月哪个搜索词被搜索次数最多。开始你的任务吧,祝你成功!

2023-05-09 18:57:48 1541

原创 分析同一种搜索词,哪个网站域名被用户访问最多——头歌

在右侧编辑器补充代码,分析同一种搜索词,哪个网站域名被用户访问最多,并根据访问次数降序取前十。本关任务:分析同一种搜索词,哪个网站域名被用户访问最多,并根据访问次数降序取前十。开始你的任务吧,祝你成功!

2023-05-09 18:54:37 2104

原创 2018年点击量最高的10个网站域名——头歌

在右侧编辑器补充代码,分析出。开始你的任务吧,祝你成功!

2023-05-09 18:46:55 2047

原创 分桶表——头歌

不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;为了完成本关任务,你需要掌握: 1.分桶表的创建 2.分桶表的数据加载 3.抽样查询 4.相关表的操作。加载不会有分桶的效果,所有需要借助一张中间表(该表需要与原表字段一致),先将数据。的大小,决定抽样的比例。

2023-05-09 00:22:06 1580

原创 外部分区表——头歌

Hive 创建内部表时(默认创建内部表),会将数据移动到数据仓库指向的路径;在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。为了完成本关任务,你需要掌握: 1.外部分区表的创建 2.数据加载 3.查询分区表。注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。本关任务:根据相关知识内容实现 Hive 外部分区表的操作。),仅记录数据所在的路径,不对数据的位置做任何改变。路径下的日志数据根据时间导入到不同分区中。条件语句查询不同分区表中的数据。

2023-05-09 00:19:29 1483

原创 内部分区表——头歌

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。为了完成本关任务,你需要掌握: 1.内部分区表的创建 2.增加与删除分区 2.相关表的操作。注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。本关任务:根据相关知识内容实现 Hive 内部分区表的操作。子句指定,分区的顺序决定了谁是父目录,谁是子目录。加载表数据时指定分区为。的方式添加新的分区。数据切分方式:逗号(

2023-05-09 00:17:14 1793

原创 hive行转列、列转行——头歌

在 Hive 实际开发过程中,我们会遇到“行转列“和“列转行”的场景。比如下面一个例子: 1、 需要取“订单号”对应的所有商品“sku 号”,商品“sku 号”放在一列,即从 table1 查询出 table2;2、 当商品“sku 号”均在一列的时候,需要查询每个“sku 号”对应的“订单号”,即从 table2 查询出 table1。为了完成本关任务,你需要掌握:1.行列转换的应用场景,2.如何行转列,3,如何列转行。在右侧编辑器补充代码,实现 test1 的行转列操作,test2 的列转行操作。

2023-05-09 00:12:25 1361 2

原创 hive嵌套查询——头歌

你需要在右边的代码框中编写 Hive SQL 语句,实现选出每个部门 Dept 的工资 Salary 最高者的全部信息。嵌套子查询执行顺序先是子查询然后在是主查询。子查询的结果不会被显示,会将其传递给外部查,作为外部查询的条件来输出。平台已经建好需要的表,你只需要完善 Hive SQL 语句,平台会对你编写的代码进行测试。为了完成本关任务,你需要掌握:1.如何进行嵌套查询。执行顺序:先是主查询然后在是子查询。嵌套子查询:执行不依赖于外部的查询。相关子查询:执行依赖于外部查询。

2023-05-09 00:11:14 1788

原创 hive合并查询——头歌

之前的单表查询只是对一张表进行查询,而多表查询需要将两张及两张以上的表进行关联查询。在多表查询中,通常使用 表名.列名 来对各表中的列进行查询操作。的单表查询,本关主要讲解如何进行多表查询。本关任务:统计查询各班学习Python的人数。根据提示,在右侧编辑器补充代码,统计查询各班学习Python的人数。平台会对你编写的代码进行测试!预期输出: c1 3 c3 2。为了完成本关任务,你需要掌握:1.在之前的实训中,我们已经知道了。数据切分方式均为:英文逗号。

2023-05-09 00:00:38 1916 1

原创 HiveQL简单查询——头歌

对于一个给定的记录,SELECT 指定了要保存的列以及输出函数需要调用的一个或多个列。根据提示,在右侧编辑器 Begin-End 中补充代码,查询股票交易表 total 的前三十条数据。但是有时我们并不想要输出这个表的所有数据,而只是想要部分数据,例如前 10 条,该怎么办呢?点击评测后,平台会对你编写的 HiveQL 语句进行查询,若与预期输出一致,则算通关。在之前的实训中,我们已经了解了如何管理表结构和数据,本关主要讲解如何运行查询。本关任务:查询股票交易表 total 的前三十条数据。

2023-05-08 23:50:51 1421 1

原创 内部表与外部表——头歌

Hive 默认创建内部表(managed table),存储位置在 hive.metastore.warehouse.dir 设置,默认位置是 /user/hive/warehouse。导入数据到内部表的时候是将文件剪切(移动)到指定位置,即原有路径下文件不再存在。删除外部表时,仅元数据被删除,HDFS 对应的目录节点不会被删除。例如上述要求为:外部数据的组织是行分割,每个字段之间用逗号分割,每一行数据之间用换行符分割,文件格式为 txt。创建一张名为 student 的内部表,导入上述外部文件的数据。

2023-05-08 23:18:40 3152 1

原创 Hive基本数据类型——头歌

另外,TIMESTAMP 的值可以使整数,即距离 Unix 新纪元时间(1970 年 1 月 1 日,午夜 12 点)的秒数;也可以是浮点数,即精确到纳秒,也可以是字符串,即 JDBC 所约定的时间字符串格式,格式为 YYYY-MM-DD hh:mm:ss.fffffffff。需要注意的是所有的数据类型都是对 Java 中对应的类型是完全一致的。例如,STRING 类型实现的是 Java 中的 String,FLOAT 实现的是 Java 中的 float 等等。Hive的内置数据类型。

2023-05-08 23:08:15 2035 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除