自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 MR实战:实现数据去重

本次实战任务目标是使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果汇总到一个文件。首先启动Hadoop服务,然后在虚拟机上创建这两个文本文件并上传到HDFS的目录。在Map阶段,我们创建自定义Mapper类,将TextInputFormat默认组件解析的键值对修改为需要去重的数据作为key,value设为空。在Reduce阶段,我们创建自定义Reducer类。

2024-01-22 17:52:49 827

原创 MR实战:网址去重

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txt、ips02.txt、ips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs,并添加了hadoop-client和junit相关依赖。

2024-01-22 17:27:04 1236

原创 Hive实战:网址去重

在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。通过Hive SQL语句创建了一个外部表ips,该表的每一行存储一个IP地址,字段间采用换行符\n进行分隔,这样便能正确读取到HDFS上的原始IP列表数据。

2024-01-22 16:59:57 799

原创 Hive实战:分科汇总求月考平均分

在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。

2024-01-22 16:18:59 755

原创 Hive分区表实战 - 单分区字段

在本Hive分区表管理实战中,我们通过一系列实际操作演示了如何有效地利用分区功能来组织和查询大规模数据。首先,创建了一个名为book的内部分区表,其结构包含id与name字段,并根据country字段进行分区。接下来,准备并加载了不同国家(中国和英国)书籍的数据文件到对应的分区目录中。为了展示分区灵活性,我们还模拟了手动创建新分区(日本),上传数据文件并通过命令将新分区纳入表的元数据管理中。此外,实战还涉及分区的删除、重命名等操作,直观展示了Hive如何同步更新分区状态至HDFS存储及元数据层面。

2024-01-22 15:14:35 1233

原创 Hive分区表实战 - 多分区字段

本实战教程通过一系列Hive SQL操作,演示了如何在大数据环境下创建具有省市分区的大学表,并从本地文件系统加载不同地区的学校数据到对应分区。首先,创建名为school的数据库并切换至该数据库;接着,在数据库中定义一个名为university的分区表,其结构包括ID和名称两列,并按照省份和城市进行物理分区。随后,在本地创建多个包含各省市区学校数据的文本文件。在完成数据文件准备后,依次将各地区学校数据文件按省市分区加载到university表中,利用。

2024-01-22 10:23:12 807

原创 MR实战:分科汇总求月考平均分

本实战项目采用Hadoop MapReduce技术处理学生月考成绩数据,旨在计算每位同学语文、数学和英语三科的平均分。首先,在虚拟机上准备了三个文本文件分别记录各科成绩,并将这些文件上传至HDFS指定目录中。通过IntelliJ IDEA创建名为的Maven项目,配置依赖于Apache Hadoop 3.3.4版本客户端及JUnit测试框架。在项目中定义了一个Student实体类,该类实现Writable接口以便于序列化与反序列化,包含学生姓名以及三科成绩属性。映射器继承自。

2024-01-14 22:53:09 869

原创 MR实战:学生信息排序

在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过Hadoop MapReduce实现学生信息排序任务。首先,启动Hadoop服务,创建目录和包含学生信息的。

2024-01-14 22:16:31 806

原创 MR实战:词频统计

本实战演练旨在利用Hadoop MapReduce框架在虚拟环境中执行一个简单的词频统计任务。首先,在master节点上创建了一个包含多个单词行的文本文件words.txt,并将该文件上传至HDFS中的指定目录。在集成开发环境IntelliJ IDEA中,我们创建了一个名为的Maven项目,并引入了Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。为了便于日志管理,添加了配置文件来定义日志输出格式及位置。和。

2024-01-14 21:30:04 793

原创 Hive实战:词频统计

通过这一系列的操作,我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。字段的内容按照空格分割成多个单词,并生成一个多行的结果集,每行包含一个单词。函数则将这个分割后的数组转换为多行记录,即每一行对应原字符串中的一个单词。统计每个单词分组的数量,结果将展示每个单词及其在原始数据集中出现的次数。注意,这里在嵌套查询中,我们为子查询取了一个别名,这个别名是。字段,该字段存储的是由空格分隔的单词字符串。字段进行分组,即将所有相同的单词归为一组。字段创建一个新的临时表(别名。

2024-01-14 17:19:20 1583 1

原创 新学期的第一篇博客

新学期的第一篇博客

2023-09-05 16:15:04 87 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除