自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大数据实训第十七天笔记

与HDFS和Hive的链接类似,但是Zookeeper中引入了监听器的机制,关于监听器的使用,会在后面提到。在另外一个NameNode节点(bigdata08)上同步元数据信息 然后再启动NameNode。使用监听器会在线程阻塞后自动保持监听器的监听状态,默认调用init中的监听器。准备三台克隆的虚拟机,其中包含安装好的Hadoop与jdk。在正常的Hadoop安装中,需要将以下文件内容变更。在安装流程中,再额外添加的profile配置项。在bigdata07执行NameNode的启动。

2024-07-22 10:58:51 1070

原创 大数据实训第十六天笔记

在已有节点/node1/child2_tmp中创建临时临时非顺序子节点/node1/child2_tmp/test 该节点数据是 “456”在已有的持久节点node1 中创建临时非顺序子节点/node1/child2_tmp 该节点数据是 “123”在bigdata05上启动zk的shell命令行,监听已有节点node1的子节点变化情况。在已有的持久节点node1 中创建持久非顺序子节点 该节点存储的数据“def”该命令无法执行 由于node1节点下存在子节点 有子节点的父节点无法删除。

2024-07-22 10:57:54 1027

原创 大数据实训第十五天笔记

【代码】大数据实训第十五天笔记。

2024-07-18 15:23:47 151

原创 大数据实训第十四天笔记

在进行导入之前,需要安装sqoop。

2024-07-18 15:21:52 178

原创 大数据实训第十三天笔记

上传jar包到/opt/jar目录下在hive命令行或者beeline命令行中添加jar包add jar jar包的本地路径;

2024-07-17 11:12:36 455

原创 大数据实训第十二天笔记

EXTERNAL关键字可以创建一个外部表,在建表的同时指定一个实际数据的路径(LOCATION),hive在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。可以看到,由于sale_static是静态分区表,所以在对于的目录下,已经生成了对应的数据。hive创建的表都会保存至HDFS上,可以在建表时指定以什么形式储存,以及数据如何分割。要向动态分区表插入数据,只能先将数据导入到一个前置表中,通过这个前置表向动态表插入数据。查询sale_dynamic表,数据已经成功导入。

2024-07-17 11:11:03 994

原创 大数据实训第十一天笔记

Hive在开发时的初衷就是为了以SQL命令来操作数据仓库,所以Hive的相关命令就是类似于SQL的。

2024-07-16 16:20:25 256

原创 大数据实训第九天笔记

开启两个session,一个启动hive但不进行任何操作,目的是为了保持hive进程在线,在另一个session中使用如下命令。但是退出后,hive并没有关闭,因为我们只是退出了beeline命令行,需要检查jps使用。使用命令行启动hive,简单快捷,而且避免了重复开session的麻烦。可以看到beeline命令行的观感要比原生hive命令行要好很多。启动的hive命令行界面,可以看到,界面非常的简陋。退出beeline命令行也是使用。要退出hive命令行,使用。命令来杀死Hive进程。

2024-07-16 16:18:30 393

原创 大数据实训第八天笔记

这里我们使用Hadoop的guava包来替代hive的guava包,因为Hadoop的guava包版本更新。由于MySQL与mariadb冲突,所以在安装MySQL前,需要卸载mariadb。将包含以下内容的hive-site.xml移动到hive配置文件目录中。查询MySQL日志,获得初始化时给MySQL账号设置的初始密码。设置MySQL访问ip,使任何ip都可以访问虚拟机的MySQL。从虚拟机外的navicat尝试访问虚拟机上的MySQL。在hive的库目录中导入MySQL的jdbc库。

2024-07-15 15:25:11 459

原创 大数据实训第七天笔记

如要计算如下的数据,计算每个人的购物总金额,则应当自定义一个使用了writeable接口的类1,小明,男,iphone14,5999,12,小华,男,飞天茅台,2338,23,小红,女,兰蔻小黑瓶精华,1080,14,小魏,未知,米家走步机,1499,15,小华,男,长城红酒,158,106,小红,女,珀莱雅面膜,79,27,小华,男,珠江啤酒,11,38,小明,男,Apple Watch 8,2999,1import org/**

2024-07-15 15:24:14 407

原创 大数据实训第六天笔记

首先将Hadoop文件复制一份,在其中将shera目录删掉,该目录包含了Hadoop所有的对外网页服务内容,但是在测试代码的Hadoop中不需要这一部分,删除后可以加快从虚拟机导出的过程。在Windows中编写自定义的Mapreduce,如果需要测试代码,则需要在Windows中构建Hadoop环境。在其中的bin目录下,添加一系列Hadoop的Windows的本地化依赖。前往Windows的环境变量配置下,添加HADOOP_HOME。java通过hdfs的api进行的各种操作。添加maven的项目配置。

2024-07-14 19:41:42 541

原创 大数据实训五天笔记

hdfs上移动或重命名文件,类似于linux中的mv命令,第一个路径是源文件路径,第二个是要移动的路径或要更改成的名称。从hdfs上获取文件,第一个路径是hdfs上的文件路径,第二个路径是本地要下载到的路径。hdfs上复制文件,第一个是要复制的文件路径,第二个是要复制到的位置以及复制后的名字。向hdfs上传文件,第一个路径是本地路径,第二个路径是hdfs上的路径。查询hdfs上的文件管理系统的根目录。读取显示hdfs上的文件内容。递归查询hdfs上的根目录。

2024-07-14 19:41:23 170

原创 大数据实训第三天笔记

虽然Hadoop一般是搭建集群后运行,但是Hadoop也可以运行在一台虚拟机上,虽然这样的方式不能投入真实的生产环境,但是对于开发人员来说,提供了一个以最小成本进行测试的途径,本文将介绍两种在一台虚拟机上运行的Hadoop。

2024-06-21 16:32:45 916

原创 大数据实训第四天笔记

回到Hadoop安装目录,给Hadoop环境指定java路径。配置本地hosts文件,使虚拟机能正确识别其他虚拟机。在profile配置Hadoop命令与节点操作用户。配置ssh密钥,使虚拟机集群之间能彼此正常访问。配置wokers,指定有多少台虚拟机参与集群。将生成的ssh公钥传递其他虚拟机。内容会有很多省略的地方。初始化Hadoop集群。

2024-06-21 14:33:20 215

原创 大数据实训第二天笔记

基于 RPM 包管理,能够从指定的服务器自动下载 RPM 包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。在之后的搭建中,Hadoop集群需要频繁的在各个集群虚拟机中联系,同时还需要对外提供相关的网页与数据接口,因此要在这里关闭防火墙。yum默认会从国外中心yum仓库下载所需软件,但是国内正常访问是很慢很不稳定,所以需要绑定国内的阿里云镜像仓库。以上,我们完成了虚拟机最基础的软件设置与环境准备,我们将这台虚拟机作为模板机使用。

2024-06-19 15:46:29 652

原创 大数据学习第七天笔记

本文写于2024年6月4日其中使用的技术以及软件可能会在未来某个时刻失效,本文主要用于个人学习,请后来者在批判实践的基础上审视本文。同时,本文这里就不进行错误复现与解决办法,网上有很多答疑的帖子环境:Windows10本节内容将演示,如何将上一节编写好的mapreduce类上传Hadoop并运行1,小明,男,iphone14,5999,12,小华,男,飞天茅台,2338,23,小红,女,兰蔻小黑瓶精华,1080,14,小魏,未知,米家走步机,1499,1。

2024-06-05 13:39:42 1115

原创 大数据学习第六天笔记

本文写于2024年6月3日其中使用的技术以及软件可能会在未来某个时刻失效,本文主要用于个人学习,请后来者在批判实践的基础上审视本文。同时,本文这里就不进行错误复现与解决办法,网上有很多答疑的帖子环境:Windows10MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。

2024-06-04 09:11:47 277 2

原创 大数据学习第五天笔记

本文写于2024年5月31日其中使用的技术以及软件可能会在未来某个时刻失效,本文主要用于个人学习,请后来者在批判实践的基础上审视本文。同时,本文这里就不进行错误复现与解决办法,网上有很多答疑的帖子环境:Windows10。

2024-06-03 12:25:15 642 1

原创 大数据学习第四天笔记

本文写于2024年5月30日其中使用的技术以及软件可能会在未来某个时刻失效,本文主要用于个人学习,请后来者在批判实践的基础上审视本文。

2024-05-31 10:43:37 378

原创 大数据学习第三天笔记-2

本文写于2024年5月30日其中使用的技术以及软件可能会在未来某个时刻失效,本文主要用于个人学习,请后来者在批判实践的基础上审视本文。

2024-05-30 13:44:33 829

原创 大数据学习第二天笔记-1

虽然虚拟机克隆已经完成,但是原机与克隆机都使用了同样的ip地址(既192.168.98.70),也有着相同的主机名,这会在集群运行时造成混乱,所以应当修改克隆机的部分网络设置。创建完整克隆,如果创建链接克隆,那就像快捷方式一样,克隆机没有实体,只是指向原机,原虚拟机发生的任何变动都会同步到克隆机。要什么要克隆虚拟机,是为了满足大数据集群计算机的需要,能够使HADOOP的集群储存运行得以实现。以下内容因为csdn炸了的缘故没有保存,所有的操作已经执行完毕,没有图了。输入你的ip,用户名,点击确定。

2024-05-28 20:10:55 325

原创 数据结构设计《中国大学生计算机设计大赛》预习报告

根据提示输入,若查找成功,输出该赛事类别对应的基本信息(参赛作品名称、参赛学校、赛事类别、参赛者和指导老师信息),同时,输出查找成功时的平均查找长度ASL;(3)能够提供按参赛学校查询参赛团队,根据提示输入参赛学校名称,若查找成功,输出该学校参赛的所有团队的基本信息,输出的参赛团队需有序输出(按参赛队编号)。从team.txt中读取参赛队伍的基本信息,能够管理各参赛队的基本信息(包含参赛队编号,参赛作品名称,参赛学校,赛事类别,参赛者,指导老师),赛事类别共11项;表格读取类,同时实现增加,删除,修改。

2023-06-02 20:42:11 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除