![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据应用
文章平均质量分 87
aos5
做最好的自己ᕦ(ò_óˇ)ᕤ
展开
-
【大数据学习知识点总结】关于Hadoop|HDFS|MapReduce的一些问题与解答
关于Hadoop|HDFS|MapReduce的一些问题与解答原创 2021-05-05 23:36:08 · 5137 阅读 · 8 评论 -
MapReduce之WordCount实战——统计某电商网站买家收藏商品数量
现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1。buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t”分割。要求编写MapReduce程序,统计每个买家收藏商品数量,并撰写实验报告。原创 2021-05-05 22:56:43 · 5464 阅读 · 2 评论 -
MapReduce入门(一)—— MapReduce概述 + WordCount案例实操
MapReduce入门(一)—— MapReduce概述MapReduce知识点总览图MapReduce入门(一)—— MapReduce 概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。1.2 MapReduce 优缺点1.2.1 优点1原创 2021-05-05 22:55:49 · 23677 阅读 · 11 评论 -
HDFS入门(六)—— DataNode(图文详解步骤2021)
HDFS入门(六)—— DataNode(图文详解步骤2021)文章目录HDFS入门(六)—— DataNode(图文详解步骤2021)6.1 DataNode 工作机制6.2 数据 完整性数据完整性6.3 DataNode掉线时限参数设置6.1 DataNode 工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,原创 2021-05-04 21:41:50 · 3001 阅读 · 5 评论 -
HDFS入门(五)—— NameNode 和 SecondaryNameNode (图文详解步骤2021)
在这里插入图片描述原创 2021-05-04 21:35:15 · 2481 阅读 · 5 评论 -
HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)
HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)文章目录HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)4.1 HDFS 写数据流程4.1.1 剖析文件 写入4.1.2 网络拓扑- 节点 距离计算4.1.3 机架 感知 (副本 存储 节点 选择)1 )机架感知说明2 )Hadoop3.1.3 副本节点选择4.2 HDFS 读数据流程4.1 HDFS 写数据流程4.1.1 剖析文件 写入借用尚硅谷的一个架构图:(1)客户端通过 Distribu原创 2021-05-04 21:18:21 · 3821 阅读 · 12 评论 -
HDFS入门(三)—— HDFS的API操作(图文详解步骤2021)
HDFS入门(三)—— HDFS的API操作刚刚(二)讲的是用Shell/Hadoop fs/HDFS/dfs的一些相关操作,相当于是在集群内部,跟集群的一些客户端打交道,这章讲的是:我们希望在Windows环境(办公环境)对远程的集群进行一个客户端访问,于是现在就在Windows环境上写代码,写HDFS客户端代码,远程连接上集群,对它们进行增删改查相关操作。文章目录HDFS入门(三)—— HDFS的API操作3.1 客户端环境 准备1) 下载 hadoop-3.1.0 (windows版)到非原创 2021-05-04 20:48:50 · 8941 阅读 · 8 评论 -
【Maven报错】Error:java: 不再支持源选项 5。请使用 6 或更高版本。(JDK14版成功解决)
注:网上大部分都是8和11的解决办法,对于博主的14,博主倒腾了一下(午)也完美解决逐一检查下面这几个地方保证版本号正确:操作一点击左上角File–Settings找到Java Compiler,确保右边两个版本号都跟自己版本号一致(比自己版本号低的都可以,但要注意一致)操作二点击左上角File–Project Structure检查Project检查Modules操作三最后再配置下pom.xml加入以下代码 <properties> .原创 2021-05-04 18:38:48 · 916 阅读 · 4 评论 -
HDFS的API环境准备小知识——Maven 安装与配置
HDFS的API环境准备小知识——Maven 安装与配置文章目录HDFS的API环境准备小知识——Maven 安装与配置1. 下载Maven2. 配置环境变量新建环境变量`M2_HOME`和`MAVEN_HOME`配置 Path 环境 变量 。3. 配置阿里云镜像4. 配置本地仓库1. 下载Maven进入Maven官网Maven官网传送门点击左侧的Downland进入后找到Files,找到apache-maven-3.8.1-bin.zip点击下载解压2. 配置环境变量像配置JA原创 2021-05-04 16:01:39 · 2601 阅读 · 3 评论 -
【hadoop遇到的相关问题】关于为什么拷贝上Availability只有一台服务器以及解决后又恢复三台拷贝的办法
还记得我在HDFS(二)中问了一个问题然后,有大佬跟我解释说是103,104挂了,让我重新按照集群崩溃的处理方法,删掉data logs然后重新format,但是我不忍心将我打下的漫威宇宙给format掉,于是进行了如下操作[leokadia@hadoop102 hadoop-3.1.3]$ myhadoop.sh stop[leokadia@hadoop102 hadoop-3.1.3]$ xsync data[leokadia@hadoop102 hadoop-3.1.3]$ xsync lo原创 2021-05-03 23:43:10 · 903 阅读 · 2 评论 -
HDFS入门(二)—— HDFS的Shell操作(包含漫威彩蛋)
HDFS入门(二)—— HDFS的Shell操作(包含漫威彩蛋)文章目录HDFS入门(二)—— HDFS的Shell操作(包含漫威彩蛋)2.1 基本语法2.2 命令 大全2.3 常用命令 实操2.3.1 准备工作1)启动 Hadoop 集群(方便后续的测试)2)-help:输出这个命令参数3)创建/Marvel 文件夹2.3.2 上传1)-moveFromLocal:从本地==剪切==粘贴到 HDFS2)-copyFromLocal:从本地文件系统中==拷贝==文件到 HDFS 路径去3)-pu原创 2021-05-03 23:04:18 · 2007 阅读 · 4 评论 -
HDFS入门(一)—— HDFS相关基本概念
HDFS入门(一)—— HDFS相关基本概念文章目录HDFS入门(一)—— HDFS相关基本概念HDFS 概述1.1 HDFS 产出背景 及 定义1 )HDFS 产生背景2 )HDFS 定义1.2 HDFS 优缺点HDFS优点HDFS缺点1.3 HDFS 组成架构HDFS组成架构1.4 HDFS 文件块大小 (面试重点)HDFS 文件块大小HDFS 概述1.1 HDFS 产出背景 及 定义1 )HDFS 产生背景随着数据量越来越大, 在一个操作系统存不下所有的数据, 那么就分配原创 2021-05-03 18:49:42 · 2120 阅读 · 1 评论 -
Hadoop入门(十五)——集群常见错误及解决方案
Hadoop入门(十五)——集群常见错误及解决方案后续持续更新文章目录Hadoop入门(十五)——集群常见错误及解决方案1)防火墙没关闭、或者没有启动 YARN2)主机名称配置错误3)IP 地址配置错误4)ssh 没有配置好5)root 用户和 leokadia 两个用户启动集群不统一6)配置文件修改不细心7)不识别主机名称8)DataNode 和 NameNode 进程同时只能工作一个。9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效10)jps 发现进程已经没有,原创 2021-05-03 17:24:37 · 6845 阅读 · 18 评论 -
Hadoop入门(十四)——集群时间同步(图文详解步骤2021)
Hadoop入门(十三)——集群时间同步(图文详解步骤2021)注意:在后续的开发过程中其实没有必要把集群时间同步,因为我们虚拟机都是联网的服务器会定期和公网时间进行校准,如果开启集群时间同步1min去同步更新一下时间反而会浪费机器的性能。因此,如果如果服务器在公网环境(能连接外网)的大家,可以跳过这一节。(我不会告诉你这一节我忘了截图的,之后再补上,大家跳过也没关系的哈,不过整个步骤还是写的很清楚了)文章目录Hadoop入门(十三)——集群时间同步(图文详解步骤2021)集群时间同步1 )需求2原创 2021-05-03 16:44:23 · 6252 阅读 · 3 评论 -
Hadoop入门(十三)——集群常用知识(面试题)与技巧总结
Hadoop入门(十三)——集群常用知识(面试题)与技巧总结文章目录Hadoop入门(十三)——集群常用知识(面试题)与技巧总结集群启动/停止方式总结1 ) 各个模块分开启动/ 停止 (配置 ssh 是前提) 常用(1)整体启动/停止 HDFS(2)整体启动/停止 YARN2 ) 各个服务组件逐一启动/ 停止(1)分别启动/停止 HDFS 组件(2)启动/停止 YARN编写 Hadoop 集群常用脚本1 )Hadoop 集群启停脚本(包含 HDFS ,Yarn ,Historyserver ):2原创 2021-05-03 16:13:51 · 3997 阅读 · 5 评论 -
Hadoop入门(十二)——配置历史服务器及日志的聚集(图文详解步骤2021)
Hadoop入门(十二)——配置历史服务器及日志的聚集(图文详解步骤2021)还记得在Hadoop入门(十)系列中我们点YARN的History但无效吗这次我们就来配置一下这个历史服务器文章目录Hadoop入门(十二)——配置历史服务器及日志的聚集(图文详解步骤2021)配置历史服务器1 ) 配置 mapred-site.xml2 ) 分发配置3 ) 在 hadoop102 启动历史服务器4 ) 查看历史服务器是否启动5 ) 测试6 ) 查看 JobHistory配置日志的聚集1 ) 配置 y原创 2021-05-01 15:13:07 · 6627 阅读 · 17 评论 -
Hadoop入门(十一)——集群崩溃的处理方法(图文详解步骤2021)
Hadoop入门(十一)——集群崩溃的处理方法(图文详解步骤2021)既然这章讲的是集群崩溃的处理方法,因此我们先把一个集群搞崩溃接Hadoop入门(十),上回已经把集群配置好了,并测试可运行。我们接下来将其搞崩溃当然这次如果是重新打开虚拟机的话,需要重新启动集群注意:这次就不需要初始化了文章目录Hadoop入门(十一)——集群崩溃的处理方法(图文详解步骤2021)启动集群搞崩集群的步骤(如果是已经被搞崩了跳过这里,直接看后面的解决办法)正确的处理方法(1)先回到目录(2)先杀死进程(3原创 2021-04-30 11:29:39 · 5380 阅读 · 9 评论 -
Hadoop入门(十)——集群配置(图文详解步骤2021)
Hadoop入门(十)——集群配置(图文详解步骤2021)1 ) 集群部署规划注意:NameNode 和 SecondaryNameNode 不要安装在同一台服务器 。(它们两个都需要耗内存,分开减少集群的压力)ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。2 )配置文件说明Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。原创 2021-04-29 23:27:00 · 28504 阅读 · 71 评论 -
【hadoop学习报错】 win10系统VMware Workstation与Device/Credential Guard不兼容怎么办?
win10系统VMware Workstation与Device/Credential Guard不兼容怎么办?有一段时间没打开虚拟机了,今天突然弹出这样的错误:VMware Workstation与Device/Credential Guard不兼容网上有好多种方法:方法一:步骤一:禁用Device Guard或Credential Guard:1、禁用用于启用Credential Guard的组策略设置。a.在主机操作系统上,右键单击“开始” > “运行”,键入gpedit.msc原创 2021-04-29 20:44:49 · 294 阅读 · 1 评论 -
Hadoop入门(九)——SSH免密登录 配置(图文详解步骤2021)
Hadoop入门——SSH免密登录 配置文章目录Hadoop入门——SSH免密登录 配置免密登录原理1 ) 配置 ssh(1)基本语法(2)ssh 连接时出现 Host key verification failed 的解决方法(3)退回到 hadoop1022 ) 无密钥配置(1)免密登录原理(2)生成公钥和私钥(3)将公钥拷贝到要免密登录的目标机器上总结流程步骤1 生成公钥和私钥步骤2 将公钥拷贝到要免密登录的目标机器上3 ).ssh 文件夹下 (~/.ssh ) 的文件功能解释免密登录原理原创 2021-03-25 00:00:41 · 24638 阅读 · 18 评论 -
Hadoop入门(八)——本地运行模式+完全分布模式案例详解,实现WordCount和集群分发脚本xsync快速配置环境变量 (图文详解步骤2021)
Hadoop 运行模式1)Hadoop 官方网站:http://hadoop.apache.org/2)Hadoop 运行模式包括: 本地模式、 伪分布式模式以及 完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。伪分布式模式:也是单机运行,但是具备 Hadoop 集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。完全分布式模式:多台服务器组成分布式环境。生产环境使用。本地运行模式 (官方 WordCount案例 )1原创 2021-03-24 22:30:42 · 20667 阅读 · 31 评论 -
Hadoop入门(七)——Hadoop安装(图文详解步骤2021)
2.4 在 hadoop102 安装 HadoopHadoop 下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/1 ) 用 XShell 文件传输 工具将 hadoop-3.1.3.tar.gz 导入到 opt 目录下面的 software 文件夹下面注:我在上一篇文章中将hadoop与jdk一起导入了,如果按照我上一篇文章一步步做的就不需要做这一步了2 ) 进入到 Hadoop 安装包路径下[l原创 2021-03-22 16:29:51 · 80894 阅读 · 38 评论 -
Hadoop入门(六)——JDK安装(图文步骤详解2021)
先在hadoop102上安装JDK,之后103,104用102的JDK拷贝,这样效率高一些在 hadoop102 安装 JDK1 ) 卸载现有 JDK注意: 安装 JDK 前, 一定确保提前删除了虚拟机自带的 JDK。 在之前的博客中已经介绍过了卸载 JDK 步骤。2 ) 用 XShell 传输 工具将 JDK 导入到 opt 目录下面的 software 文件夹下面3 ) 在 Linux 系统下的 opt 目录中查看软件包是否导入成功[atguigu@hadoop102 ~]原创 2021-03-20 22:51:16 · 24153 阅读 · 12 评论 -
Hadoop入门(五)——Hadoop集群搭建-克隆三台虚拟机(图文步骤详解2021)
Hadoop入门——克隆三台虚拟机首先关闭虚拟机才能克隆右键,管理,克隆注意选择创建完整的克隆依次克隆出hadoop102,hadoop103,hadoop104Why not hadoop101?hadoop101留给了一个尾分布式,单台服务器的操作使用,102,103,104搭建的是完全分布式,真正的集群,后续所有配置框架基于这个来的。配置克隆出来的虚拟机的IP地址,主机名称分别执行以下三条命令:vim /etc/sysconfig/network-scripts/ifcfg原创 2021-03-19 23:16:07 · 19448 阅读 · 14 评论 -
Hadoop入门(四)——模板虚拟机环境准备(图文详解步骤2021)
Hadoop入门——模板虚拟机环境准备文章目录Hadoop入门——模板虚拟机环境准备1. hadoop100 虚拟机配置要求如下 ( 本文 Linux 系统全部以 CentOS-7.5-x86-1804 为例 )(1)使用 yum 安装需要虚拟机可以正常上网,yum 安装前可以先测试下虚拟机联网情况(2)安装 epel-release(3) 注意: 如果 Linux 安装的是最小系统版, 还需要安装如下工具; 如果安装的是 Linux桌面标准版,不需要执行如下操作2 . 关闭防火墙 ,关闭防火墙开机原创 2021-03-17 21:47:14 · 16658 阅读 · 14 评论 -
Hadoop入门(三)——XSHELL7远程访问工具+XFTP7文件传输(图文步骤详解2021)
在前面的文章中,我们完成了CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)VMware虚拟网络设置+Windows10的IP地址配置+CentOS静态IP设置现在我们来建立远程访问工具,以及实现文件传输。在官网上分别下好XSHELL7和XFTP7官网地址:https://www.netsarang.com/zh/all-downloads/下载步骤很简单,这里以XFTP7为例:(我不会告诉你我是忘记了XSHELL的截图的)两个下载好了是这样子:然后分别安装,原创 2021-03-16 20:19:11 · 15128 阅读 · 26 评论 -
Hadoop入门(一)——CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)
CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)文章目录CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)CentOS7下载官网下载国内镜像下载VM上手动安装CentOS7创建虚拟机分区方案描述必须的分区boot分区:/分区(根分区):swap分区:可选的分区home分区var分区CentOS7下载官网下载1.进入CentOs官网:官网网址2.往下拉进入Older Version3. 往下拉找到Base Distribution,选择自己的版本,点击Tree原创 2021-03-14 17:24:42 · 38176 阅读 · 27 评论 -
Hadoop入门(二)——VMware15.5虚拟网络设置+Windows10的IP地址配置+CentOS7静态IP设置(图文详解步骤2021)
之前在上一篇文章中讲述了CentOS7下载+VM上安装(手动分区)图文步骤详解(2021)没看过的可以回去补补课,接下来我来讲述CentOS三处IP和主机名称配置对上一篇的小优化在讲之前,我对上一篇内容做出一点修改,当然完全按照上一篇操作对于初学者来说完全够用,但考虑到后期扩充内存的麻烦,博主又重新装了一遍,基本步骤不变只是将每个处理器的数量由2改为3,然后虚拟机的磁盘容量由20G变为了50G,当然磁盘容量改了,相应手动分区的各区域分配也相应改变。为什么想要把处理器内核由2改为3呢?因为博主之后原创 2021-03-16 18:33:38 · 25461 阅读 · 30 评论