林边上的猫-CSDN博客

原创 Hive实战：网址去重

本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS，接着启动Hive服务与客户端，创建外部表加载数据，并用DISTINCT从原始表中提取不重复IP至新内部表，最终成功实现去重目标，展示了Hive处理大规模文本数据的高效能与便捷性。

2024-01-23 03:47:55 436 1

在本次实战中，我们专注于利用Hive框架对成绩数据进行精细化处理和分析。主要目标是计算每位学生的总分和平均分。为了达到这个目标，我们采取了以下步骤：数据准备与结构化：创建了一个结构化的成绩记录文本文件，其中每条记录都清晰地包含学生的姓名和各科成绩。这种结构化数据的使用简化了后续的数据处理和分析。通过Hive的load data命令将该结构化成绩数据文件直接加载到t_score表中，确保了数据的实时性和准确性。

2024-01-23 03:31:19 1630 1

原创 Hive实战：词频统计

在本次实战任务中，我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述：test.txtt_word。

2024-01-23 03:17:22 1574 1

原创 Hive实战：学生信息排序

在这个实战中，我们将使用Apache Hive作为数据仓库工具来对存储在HDFS上的学生信息表进行排序操作。下面是详细的步骤：创建并上传学生表数据至HDFS：首先，创建一个包含8条记录的学生表数据，每条记录包含姓名、性别、年龄、手机和专业五个字段。然后，将这些数据上传到HDFS的指定目录。启动Hive Metastore服务与客户端：启动Hive Metastore服务，该服务用于存储Hive的元数据信息。然后，启动Hive客户端，以便我们可以与Hive交互。

2024-01-14 20:18:16 432 1

原创 Hive实战：分科汇总求月考平均分

在这个实战中，我们运用了Hive框架来处理学生的月考成绩数据。具体步骤如下：准备数据：我们准备了三个文本文件，分别包含了语文、数学和英语的月考成绩数据，并将这些数据上传到HDFS的指定目录。启动Hive Metastore服务并连接Hive客户端：我们启动了Hive Metastore服务，并通过Hive客户端连接到Hive，为后续操作做好准备。创建分区表：在Hive中，我们创建了一个名为的分区表，用于存储学生的成绩数据，其中分区字段为科目（）。这样的分区设计使得后续查询和分析更加方便。加载数据到分区

2024-01-09 11:19:44 1233

原创 MR实战：实现数据去重

在本次实战中，我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作，并将结果整合到一个文件中。在开始之前，确保成功启动Hadoop服务，以搭建分布式计算环境，为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件，并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。

2024-01-08 11:47:33 1005

原创 MR实战：分科汇总求月考平均分

在当前实战中，我们通过深入学习和应用Hadoop MapReduce框架，成功处理了学生月考成绩数据，主要目标是计算每个同学的语文、数学和英语的平均分。通过启动Hadoop服务，我们确保了分布式计算环境的正常运行，为后续MapReduce任务提供了必要的基础支持。我们在虚拟机上创建了包含语文、数学、英语成绩的文本文件，并将这三个文件上传到HDFS的指定目录。这一步确保了数据的可访问性和可用性。使用Maven创建了名为SubjectAvg的项目，并添加了必要的依赖（hadoop和junit）。

2024-01-08 11:03:18 833

原创 MR实战：词频统计

这次实战中，我们利用Hadoop MapReduce框架在虚拟环境中对words.txt文件进行了高效的词频统计。在开始之前，我们首先将待处理的数据文件上传至HDFS，以确保MapReduce任务能够访问数据。这可以通过使用Hadoop命令行或者HDFS客户端工具完成。我们使用IntelliJ IDEA创建了一个Maven项目，并配置了相关依赖项，以确保项目能够顺利运行。这包括Hadoop相关的依赖和其他必要的库。我们的WordCountMapper负责按空格拆分单词并初始化词频为1。

2024-01-08 09:41:12 914

原创 MR实战：学生信息排序

本教程介绍了通过Hadoop MapReduce实现学生信息排序任务的步骤。在拓展练习中，我们将修改Student类的比较规则以实现性别升序、年龄降序排序，最后重新运行StudentDriver查看结果。通过这个实践教程，我们深入浅出地了解了MapReduce的基本原理和应用，并领略了它在大数据处理中的强大魅力。

2023-12-29 15:52:30 963 1