自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hive实战:网址去重

在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。通过Hive SQL语句创建了一个外部表ips,该表的每一行存储一个IP地址,字段间采用换行符\n进行分隔,这样便能正确读取到HDFS上的原始IP列表数据。

2024-01-09 09:13:58 886

原创 MR实战:网址去重

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txt、ips02.txt、ips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs,并添加了hadoop-client和junit相关依赖。

2024-01-09 08:55:18 801

原创 MR实战:分科汇总求月考平均分

在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。

2024-01-08 11:57:46 855

原创 Hive实战:分科汇总求月考平均分

在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表,用于存储学生的成绩数据,其中分区字段为科目(subject然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。

2024-01-08 09:16:55 936

原创 Hive实战:词频统计

在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。

2023-12-29 23:37:20 919 1

原创 MR实战:学生信息排序

在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先,启动Hadoop服务,创建目录和包含学生信息的文件,然后将其上传到HDFS的目录。接着,创建。

2023-12-29 17:25:30 927 1

原创 MR实战:统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据,我们将在Hadoop上进行以下步骤:启动服务,准备数据(创建score.txt文件并上传到HDFS的/calcscore/input目录);实现MapReduce过程,包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类,以及设置作业的ScoreDriver类。在ScoreMapper中,我们将每行数据拆分为姓名和科目成绩的键值对。

2023-12-29 11:59:07 797 1

原创 基于XML配置方式SSM框架西蒙购物网

管理员拥有全方位的管理权限,包括用户管理、类别管理、商品管理和订单管理。总的来说,西蒙购物网站通过精细的权限控制和高效的后台管理,为用户提供了一个安全、便捷且丰富的在线购物环境。首先,只有成功注册并登录的用户才能享有完整的购物功能,包括查看商品类别、浏览商品详情、进行选购、生成订单以及查看自己的订单历史。通过以上四个管理模块,管理员能够全面掌控"SSMSimonShop"购物网站的运营情况,及时处理用户需求和业务变化,确保网站的正常运行和优质服务。管理员可以通过用户管理模块来查看、添加、修改和删除用户。

2023-12-29 10:13:26 913 1

原创 Java Web应用小案例 - 实现用户登录功能

今天我们将一起学习如何使用纯JSP方式实现用户登录功能。在这个过程中,我们会通过四个主要步骤来完成这个任务:创建Web项目、创建登录页面、创建登录处理页面以及创建登录成功和失败页面。

2023-12-09 01:55:04 1977

原创 HDFS Java API基本操作实验

详细说明: 这是Hadoop的核心库,包含了许多通用的类和工具,用于支持Hadoop分布式文件系统(HDFS)和分布式计算。详细说明: Log4j是一个用于Java应用程序的灵活的日志框架,log4j-core包含了其核心的日志处理功能。详细说明: 包含Hadoop客户端的相关类,用于在应用程序中与Hadoop集群通信,提交作业等。详细说明: 包含了HDFS相关的类,用于进行文件系统的读写操作,支持分布式存储和文件管理。作用: 提供Hadoop的客户端库,支持与Hadoop集群进行交互。

2023-12-08 15:50:53 1011

原创 新学期的第一篇博客

新学期,新气象

2023-09-05 16:06:26 93 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除