- 博客(16)
- 收藏
- 关注
原创 Hadoop 完全分布式安装配置
(3)请完成 host 相关配置,将三个节点分别命名为master、slave1、slave2,并做免密登录,用 scp 命令并使用绝对路径从 Master 复制 JDK 解压后的安装文件到 slave1、slave2 节点(若路径不存在,则需新建),并配置 slave1、slave2 相关环境变量,将全部 scp 复制 JDK 的命令复制并粘贴至客户端桌面【M1-T1-SUBT1-提交结果 3.docx】中对应的任务序号下;接下来,配置免密登录。-- 指定HDFS副本数量为3,因为您有3个节点 -->
2024-05-07 11:47:33 1618
原创 Hadoop 完全分布式安装配置
本任务需要使用 root 用户完成相关配置,安装 Hadoop需要配置前置环境。命令中要求使用绝对路径,具体要求如下:
2024-05-07 11:45:48 806
原创 1.1 HDFS的介绍
HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。这些信息在启动后会加载到内存中。但与面向单一的文件磁盘系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间(例如一个1MB的文件存储在一个128MB的块中时,文件只会使用1MB的磁盘空间,而不是128MB)。
2024-05-06 14:29:25 791 2
原创 NPM 基础
NPM 使用介绍 | 菜鸟教程允许用户从NPM服务器下载别人编写的第三方包到本地使用。允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用。由于新版的nodejs已经集成了npm,所以之前npm也一并安装好了。同样可以通过输入"npm -v"来测试是否成功安装。
2024-04-29 10:51:39 707
原创 NPM 基础
NPM 使用介绍 | 菜鸟教程允许用户从NPM服务器下载别人编写的第三方包到本地使用。允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用。由于新版的nodejs已经集成了npm,所以之前npm也一并安装好了。同样可以通过输入"npm -v"来测试是否成功安装。
2024-04-29 10:38:03 563
原创 R语言基础
文件菜单可以实现的功能有输入R语言代码、建立新的程序脚本、打开程序脚本、显示文件、载入工作空间、保存工作空间、载入历史、保存历史、改变当前目录、打印、保存到文件及退出。同样的,R语言还提供反向赋值的功能,如下面的代码所示。随机森林分类器利用基于Breiman随机森林理论的R语言软件包randomForest中的randomForest函数来实现,需要设置3个主要的参数:森林中决策树的数量(tree)、内部结点随机选择属性的个数(mtry)及终结点的最小样本数(nodesize)。
2024-04-29 10:23:06 683
原创 [实验]基于Java API的操作
1、初始化客户端对象,我们先在项目src文件夹下创建com.hzzt.hdfsdemo包,并在该包下创建HDFS_CRUD.java文件,编写JAVA测试类,构建Configuration和FileSystem对象,初始化一个客户端实例进行相应操作。4、目录操作,在HDFS_CRUD.java文件添加一个testMkdirAndDeleteAndRename()方法,实现目录的创建,删除,重命名的功能。2、创建完成后,我们需要导入jar包,打开pom.xml文件,写入以下代码。基于Java API的操作。
2024-04-29 10:18:56 531
原创 [实验]HDFS的shell命令和应用
而集群中的数据节点一般是一个节点运行一个数据节点运行,其中每个数据节点上的数据实际上是保存在本地的Linux文件系统中,并在名称节点的统一调动下,负责处理文件系统客户端的读/写请求,或删除,创建和复制数据块等操作。本节实验主要进行HDFS的一些基本文件操作,例如读文件、创建文件存储路径、删除文件、列出文件列表、文件归档等操作。下,我这里是上传了“下载”文件夹,命令hadoop fs -put 源文件 /test中的“源文件”是指我们要上传文件的全部路径,比如我上传的下载文件,它的地址为/
2024-04-29 10:16:04 747 1
原创 HDFS的介绍
它与NameNode保持不断的通信,DataNode在客户端或者NameNode的调度下,存储并检索数据块,对数据块进行创建、删除等操作,并且定期向NameNode发送所存储的数据块列表。HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。最后通过 NameNode 完成写入。
2024-04-29 10:09:57 623 1
原创 [实验]Hadoop集群安装与配置
8、SSH免密登录测试,在hadoop01节点中使用命令 ssh hadoop02,在hadoop02节点中使用命令 ssh hadoop03,在hadoop03节点中使用命令 ssh hadoop01,或直接在hadoop01节点中使用,效果如下。4、和JDK一样,我们安装完成后都需要配置环境变量,使用命令vi /etc/profile进入到该文件后,依旧在最后一行进行配置,参数如下(以下两行参数一定要把地址写对,如果你的地址是自己修改的,需要把第一行中的地址写为你修改的地址)修改完成后保存退出。
2024-04-29 10:03:19 976 3
原创 初识Hadoop
借助于大数据平台,可以搜集不同病人的疾病特征、病例和治疗方案,从而建立医疗行业的病人分类数据库。总结:以上是为大家举例说明了大数据的应用场景,当然大数据技术的应用场景是远远不止这些的比如还有电商大数据、农牧大数据、交通大数据、教育大数据、体育大数据、环保大数据等多种大数据应用场景,不论是哪个行业的大数据分析和应用场景,可以看到一个典型的特点还是无法离开以人为中心所产生的各种用户行为数据,用户业务活动和交易记录,用户社交数据,这些核心数据的相关性再加上可感知设备的智能数据采集就构成一个完整的大数据生态环境。
2024-04-29 09:28:49 1213 4
原创 多元线性模型
多元回归模型通常用来研究一个因变量依赖多个自变量的变化关系,如果二者的依赖关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析.本章介绍多元线性模型的定义、参数估计与检验、变量选择、回归诊断和回归预测.多元线性模型通常用来描述变量y与x之间的随机线性关系,即 (2.1) 式中,是非随机的自变量;y是随机
2024-04-29 09:20:05 1563
原创 R与多元统计分析简介
多元统计分析是研究多个(随机)变量之间相互关系和规律的统计学分支.在实际生活中,受多个变量作用和影响的现象很多,如果变量之间是相互独立或互不相关的,我们可以把多个变量分开来进行研究,一次分析一个变量,即采用一元统计分析的方法进行分析,但如果变量之间是相关的,则采用一元统计方法就会丢失很多信息,因为这种分析方法忽略了多个变量间的相关性.多元统计分析就是把多个变量合在一起进行研究的统计学方法,它在自然科学、经济学、管理学和社会科学等领域有广泛的应用.
2024-04-29 09:18:40 585
第1章-多元统计分析与R简介.ppt
2024-05-07
Linux系统上安装Hadoop及相关应用软件
2024-04-29
Hadoop以一种可靠、高效、可伸缩的方式进行数据处理
2024-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人