自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Flume安装配置

本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:

2024-05-07 11:54:44 528

原创 Hadoop 完全分布式安装配置

(3)请完成 host 相关配置,将三个节点分别命名为master、slave1、slave2,并做免密登录,用 scp 命令并使用绝对路径从 Master 复制 JDK 解压后的安装文件到 slave1、slave2 节点(若路径不存在,则需新建),并配置 slave1、slave2 相关环境变量,将全部 scp 复制 JDK 的命令复制并粘贴至客户端桌面【M1-T1-SUBT1-提交结果 3.docx】中对应的任务序号下;接下来,配置免密登录。-- 指定HDFS副本数量为3,因为您有3个节点 -->

2024-05-07 11:47:33 1618

原创 Hadoop 完全分布式安装配置

本任务需要使用 root 用户完成相关配置,安装 Hadoop需要配置前置环境。命令中要求使用绝对路径,具体要求如下:

2024-05-07 11:45:48 806

原创 1.1 HDFS的介绍

HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。这些信息在启动后会加载到内存中。但与面向单一的文件磁盘系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间(例如一个1MB的文件存储在一个128MB的块中时,文件只会使用1MB的磁盘空间,而不是128MB)。

2024-05-06 14:29:25 791 2

原创 NPM 基础

NPM 使用介绍 | 菜鸟教程允许用户从NPM服务器下载别人编写的第三方包到本地使用。允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用。由于新版的nodejs已经集成了npm,所以之前npm也一并安装好了。同样可以通过输入"npm -v"来测试是否成功安装。

2024-04-29 10:51:39 707

原创 NPM 基础

NPM 使用介绍 | 菜鸟教程允许用户从NPM服务器下载别人编写的第三方包到本地使用。允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用。由于新版的nodejs已经集成了npm,所以之前npm也一并安装好了。同样可以通过输入"npm -v"来测试是否成功安装。

2024-04-29 10:38:03 563

原创 chrome插件开发 极简入门

不需要什么IDE开发环境,最简单的编辑器就可以开发插件。

2024-04-29 10:34:12 453

原创 yarn的安装和使用

Yarn是facebook发布的一款取代npm的包管理工具。

2024-04-29 10:31:08 222

原创 R语言基础

文件菜单可以实现的功能有输入R语言代码、建立新的程序脚本、打开程序脚本、显示文件、载入工作空间、保存工作空间、载入历史、保存历史、改变当前目录、打印、保存到文件及退出。同样的,R语言还提供反向赋值的功能,如下面的代码所示。随机森林分类器利用基于Breiman随机森林理论的R语言软件包randomForest中的randomForest函数来实现,需要设置3个主要的参数:森林中决策树的数量(tree)、内部结点随机选择属性的个数(mtry)及终结点的最小样本数(nodesize)。

2024-04-29 10:23:06 683

原创 [实验]基于Java API的操作

1、初始化客户端对象,我们先在项目src文件夹下创建com.hzzt.hdfsdemo包,并在该包下创建HDFS_CRUD.java文件,编写JAVA测试类,构建Configuration和FileSystem对象,初始化一个客户端实例进行相应操作。4、目录操作,在HDFS_CRUD.java文件添加一个testMkdirAndDeleteAndRename()方法,实现目录的创建,删除,重命名的功能。2、创建完成后,我们需要导入jar包,打开pom.xml文件,写入以下代码。基于Java API的操作。

2024-04-29 10:18:56 531

原创 [实验]HDFS的shell命令和应用

而集群中的数据节点一般是一个节点运行一个数据节点运行,其中每个数据节点上的数据实际上是保存在本地的Linux文件系统中,并在名称节点的统一调动下,负责处理文件系统客户端的读/写请求,或删除,创建和复制数据块等操作。本节实验主要进行HDFS的一些基本文件操作,例如读文件、创建文件存储路径、删除文件、列出文件列表、文件归档等操作。下,我这里是上传了“下载”文件夹,命令hadoop fs -put 源文件 /test中的“源文件”是指我们要上传文件的全部路径,比如我上传的下载文件,它的地址为/

2024-04-29 10:16:04 747 1

原创 HDFS的介绍

它与NameNode保持不断的通信,DataNode在客户端或者NameNode的调度下,存储并检索数据块,对数据块进行创建、删除等操作,并且定期向NameNode发送所存储的数据块列表。HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。最后通过 NameNode 完成写入。

2024-04-29 10:09:57 623 1

原创 [实验]Hadoop集群安装与配置

8、SSH免密登录测试,在hadoop01节点中使用命令 ssh hadoop02,在hadoop02节点中使用命令 ssh hadoop03,在hadoop03节点中使用命令 ssh hadoop01,或直接在hadoop01节点中使用,效果如下。4、和JDK一样,我们安装完成后都需要配置环境变量,使用命令vi /etc/profile进入到该文件后,依旧在最后一行进行配置,参数如下(以下两行参数一定要把地址写对,如果你的地址是自己修改的,需要把第一行中的地址写为你修改的地址)修改完成后保存退出。

2024-04-29 10:03:19 976 3

原创 初识Hadoop

借助于大数据平台,可以搜集不同病人的疾病特征、病例和治疗方案,从而建立医疗行业的病人分类数据库。总结:以上是为大家举例说明了大数据的应用场景,当然大数据技术的应用场景是远远不止这些的比如还有电商大数据、农牧大数据、交通大数据、教育大数据、体育大数据、环保大数据等多种大数据应用场景,不论是哪个行业的大数据分析和应用场景,可以看到一个典型的特点还是无法离开以人为中心所产生的各种用户行为数据,用户业务活动和交易记录,用户社交数据,这些核心数据的相关性再加上可感知设备的智能数据采集就构成一个完整的大数据生态环境。

2024-04-29 09:28:49 1213 4

原创 多元线性模型

多元回归模型通常用来研究一个因变量依赖多个自变量的变化关系,如果二者的依赖关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析.本章介绍多元线性模型的定义、参数估计与检验、变量选择、回归诊断和回归预测.多元线性模型通常用来描述变量y与x之间的随机线性关系,即 (2.1) 式中,是非随机的自变量;y是随机

2024-04-29 09:20:05 1563

原创 R与多元统计分析简介

多元统计分析是研究多个(随机)变量之间相互关系和规律的统计学分支.在实际生活中,受多个变量作用和影响的现象很多,如果变量之间是相互独立或互不相关的,我们可以把多个变量分开来进行研究,一次分析一个变量,即采用一元统计分析的方法进行分析,但如果变量之间是相关的,则采用一元统计方法就会丢失很多信息,因为这种分析方法忽略了多个变量间的相关性.多元统计分析就是把多个变量合在一起进行研究的统计学方法,它在自然科学、经济学、管理学和社会科学等领域有广泛的应用.

2024-04-29 09:18:40 585

R语言安装包R-4.3.3win.exe

R语言安装包R-4.3.3win.exe

2024-05-07

多元统计分析-多元线性模型

2.1多元正态分布 2.2 多元线性模型 2.3 变量选择 2.4 回归诊断 2.5 回归预测

2024-05-07

第1章-多元统计分析与R简介.ppt

多元统计分析(multivariate statistical analysis)就是把多个变量合在一起进行研究的统计学方法,在自然科学、经济学、管理学和社会科学等领域有广泛的应用. 本章对多元统计分析和R软件作简要介绍 多元统计分析的含义 (1)多元统计分析是研究多个(随机)变量之间相互关系和规律的统计学分支. (3)主要讨论:多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析和多维标度分析. (2)不讨论:多元正态分布的参数估计、均值的假设检验和协方差阵的假设检验问题. 多元统计分析的用途 (1)多变量的相关性分析:简单相关分析、偏相关分析、复相关分析、典型相关分析 (2)预测分析:多元回归分析 (3)分类和组合:聚类分析和判别分析 (4)降维和数据简化: 主成分分析和因子分析 多元统计分析的内容 (1)多元回归分析:研究一个因变量随多个自变量的变化而变化的情况,通过建立多元回归模型(线性模型和广义线性模型等)来分析二者之间的依赖关系第2章,第3章 (2)聚类分析:根据聚类对象的多个变量(指标)的测量值,按照某个标准把这写个体分成若干类第4章

2024-05-07

Linux系统上安装Hadoop及相关应用软件

1、在Linux系统上安装Hadoop及相关应用软件; 2、掌握集群所有节点之间SSH免密登录配置方式; 3、掌握Hadoop集群的搭建配置流程; 4、理解Hadoop集群的原理,并掌握Hadoop集群的配置方法

2024-04-29

Hadoop以一种可靠、高效、可伸缩的方式进行数据处理

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,一个能够对大量数据进行分布式处理的软件框架; Hadoop以一种可靠、高效、可伸缩的方式进行数据处理;用户可以在不了解分布式底层细节的情况下,开发分布式程序。 (1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 (2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 (3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 (4)低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。 随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系。 HDFS分布式文件系统:HDFS是Hadoop的分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。

2024-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除