自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hive实战:网址去重

本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS,接着启动Hive服务与客户端,创建外部表加载数据,并用DISTINCT从原始表中提取不重复IP至新内部表,最终成功实现去重目标,展示了Hive处理大规模文本数据的高效能与便捷性。

2024-01-23 03:47:55 436 1

原创 Hive实战:统计总分与平均分

在本次实战中,我们专注于利用Hive框架对成绩数据进行精细化处理和分析。主要目标是计算每位学生的总分和平均分。为了达到这个目标,我们采取了以下步骤:数据准备与结构化:创建了一个结构化的成绩记录文本文件,其中每条记录都清晰地包含学生的姓名和各科成绩。这种结构化数据的使用简化了后续的数据处理和分析。通过Hive的load data命令将该结构化成绩数据文件直接加载到t_score表中,确保了数据的实时性和准确性。

2024-01-23 03:31:19 1630 1

原创 Hive实战:词频统计

在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:test.txtt_word。

2024-01-23 03:17:22 1574 1

原创 Hive实战:学生信息排序

在这个实战中,我们将使用Apache Hive作为数据仓库工具来对存储在HDFS上的学生信息表进行排序操作。下面是详细的步骤:创建并上传学生表数据至HDFS:首先,创建一个包含8条记录的学生表数据,每条记录包含姓名、性别、年龄、手机和专业五个字段。然后,将这些数据上传到HDFS的指定目录。启动Hive Metastore服务与客户端:启动Hive Metastore服务,该服务用于存储Hive的元数据信息。然后,启动Hive客户端,以便我们可以与Hive交互。

2024-01-14 20:18:16 432 1

原创 Hive实战:分科汇总求月考平均分

在这个实战中,我们运用了Hive框架来处理学生的月考成绩数据。具体步骤如下:准备数据: 我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据,并将这些数据上传到HDFS的指定目录。启动Hive Metastore服务并连接Hive客户端: 我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive,为后续操作做好准备。创建分区表: 在Hive中,我们创建了一个名为的分区表,用于存储学生的成绩数据,其中分区字段为科目()。这样的分区设计使得后续查询和分析更加方便。加载数据到分区

2024-01-09 11:19:44 1233

原创 MR实战:实现数据去重

在本次实战中,我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果整合到一个文件中。在开始之前,确保成功启动Hadoop服务,以搭建分布式计算环境,为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件,并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。

2024-01-08 11:47:33 1005

原创 MR实战:分科汇总求月考平均分

在当前实战中,我们通过深入学习和应用Hadoop MapReduce框架,成功处理了学生月考成绩数据,主要目标是计算每个同学的语文、数学和英语的平均分。通过启动Hadoop服务,我们确保了分布式计算环境的正常运行,为后续MapReduce任务提供了必要的基础支持。我们在虚拟机上创建了包含语文、数学、英语成绩的文本文件,并将这三个文件上传到HDFS的指定目录。这一步确保了数据的可访问性和可用性。使用Maven创建了名为SubjectAvg的项目,并添加了必要的依赖(hadoop和junit)。

2024-01-08 11:03:18 833

原创 MR实战:词频统计

这次实战中,我们利用Hadoop MapReduce框架在虚拟环境中对words.txt文件进行了高效的词频统计。在开始之前,我们首先将待处理的数据文件上传至HDFS,以确保MapReduce任务能够访问数据。这可以通过使用Hadoop命令行或者HDFS客户端工具完成。我们使用IntelliJ IDEA创建了一个Maven项目,并配置了相关依赖项,以确保项目能够顺利运行。这包括Hadoop相关的依赖和其他必要的库。我们的WordCountMapper负责按空格拆分单词并初始化词频为1。

2024-01-08 09:41:12 914

原创 MR实战:学生信息排序

本教程介绍了通过Hadoop MapReduce实现学生信息排序任务的步骤。在拓展练习中,我们将修改Student类的比较规则以实现性别升序、年龄降序排序,最后重新运行StudentDriver查看结果。通过这个实践教程,我们深入浅出地了解了MapReduce的基本原理和应用,并领略了它在大数据处理中的强大魅力。

2023-12-29 15:52:30 963 1

原创 MR实战:统计总分与平均分

JDK版本要与服务器上的JDK版本一致。单击【Finish】按钮。

2023-12-29 10:52:04 466 1

原创 新学期第一篇博客

第一次数据清洗和预处理课

2023-09-05 16:09:33 104 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除