- 博客(11)
- 收藏
- 关注
原创 Hive实战:网址去重
本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS,接着启动Hive服务与客户端,创建外部表加载数据,并用DISTINCT从原始表中提取不重复IP至新内部表,最终成功实现去重目标,展示了Hive处理大规模文本数据的高效能与便捷性。
2024-01-23 03:47:55
436
1
原创 Hive实战:统计总分与平均分
在本次实战中,我们专注于利用Hive框架对成绩数据进行精细化处理和分析。主要目标是计算每位学生的总分和平均分。为了达到这个目标,我们采取了以下步骤:数据准备与结构化:创建了一个结构化的成绩记录文本文件,其中每条记录都清晰地包含学生的姓名和各科成绩。这种结构化数据的使用简化了后续的数据处理和分析。通过Hive的load data命令将该结构化成绩数据文件直接加载到t_score表中,确保了数据的实时性和准确性。
2024-01-23 03:31:19
1630
1
原创 Hive实战:词频统计
在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:test.txtt_word。
2024-01-23 03:17:22
1574
1
原创 Hive实战:学生信息排序
在这个实战中,我们将使用Apache Hive作为数据仓库工具来对存储在HDFS上的学生信息表进行排序操作。下面是详细的步骤:创建并上传学生表数据至HDFS:首先,创建一个包含8条记录的学生表数据,每条记录包含姓名、性别、年龄、手机和专业五个字段。然后,将这些数据上传到HDFS的指定目录。启动Hive Metastore服务与客户端:启动Hive Metastore服务,该服务用于存储Hive的元数据信息。然后,启动Hive客户端,以便我们可以与Hive交互。
2024-01-14 20:18:16
432
1
原创 Hive实战:分科汇总求月考平均分
在这个实战中,我们运用了Hive框架来处理学生的月考成绩数据。具体步骤如下:准备数据: 我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据,并将这些数据上传到HDFS的指定目录。启动Hive Metastore服务并连接Hive客户端: 我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive,为后续操作做好准备。创建分区表: 在Hive中,我们创建了一个名为的分区表,用于存储学生的成绩数据,其中分区字段为科目()。这样的分区设计使得后续查询和分析更加方便。加载数据到分区
2024-01-09 11:19:44
1233
原创 MR实战:实现数据去重
在本次实战中,我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果整合到一个文件中。在开始之前,确保成功启动Hadoop服务,以搭建分布式计算环境,为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件,并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。
2024-01-08 11:47:33
1005
原创 MR实战:分科汇总求月考平均分
在当前实战中,我们通过深入学习和应用Hadoop MapReduce框架,成功处理了学生月考成绩数据,主要目标是计算每个同学的语文、数学和英语的平均分。通过启动Hadoop服务,我们确保了分布式计算环境的正常运行,为后续MapReduce任务提供了必要的基础支持。我们在虚拟机上创建了包含语文、数学、英语成绩的文本文件,并将这三个文件上传到HDFS的指定目录。这一步确保了数据的可访问性和可用性。使用Maven创建了名为SubjectAvg的项目,并添加了必要的依赖(hadoop和junit)。
2024-01-08 11:03:18
833
原创 MR实战:词频统计
这次实战中,我们利用Hadoop MapReduce框架在虚拟环境中对words.txt文件进行了高效的词频统计。在开始之前,我们首先将待处理的数据文件上传至HDFS,以确保MapReduce任务能够访问数据。这可以通过使用Hadoop命令行或者HDFS客户端工具完成。我们使用IntelliJ IDEA创建了一个Maven项目,并配置了相关依赖项,以确保项目能够顺利运行。这包括Hadoop相关的依赖和其他必要的库。我们的WordCountMapper负责按空格拆分单词并初始化词频为1。
2024-01-08 09:41:12
914
原创 MR实战:学生信息排序
本教程介绍了通过Hadoop MapReduce实现学生信息排序任务的步骤。在拓展练习中,我们将修改Student类的比较规则以实现性别升序、年龄降序排序,最后重新运行StudentDriver查看结果。通过这个实践教程,我们深入浅出地了解了MapReduce的基本原理和应用,并领略了它在大数据处理中的强大魅力。
2023-12-29 15:52:30
963
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人