![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 89
Hadoop
云烟成雨TD
一个追求有道有术的非典型程序员
展开
-
Hadoop入门系列(11)-YARN工作机制
定义YARN (Yet Another Resource Negotiator,另一种资源协调者)是 Hadoop 资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager(RM):ResourceManager具有两个主要组件:Sch原创 2021-01-06 16:13:35 · 199 阅读 · 0 评论 -
Hadoop入门系列(10)-MapReduce工作流程详解
简化流程input: 读取输入文件map: 文件切片,并切片数量执行MapTask任务shuffle:分区、排序, 并将任务结果写入分区中reduce:从分区中读取数据,每个分区分配一个ReduceTaskoutput:数据输出到文件系统MapTask工作机制并行度与决定机制一个job的map阶段并行度由客户端在提交job时决定每一个split切片分配一个mapTask默认 切片大小=blocksize切片时不考虑数据集整体,而是逐个对每一个文件单独切片工作流程Rea原创 2021-01-06 14:29:31 · 376 阅读 · 0 评论 -
Hadoop入门系列(7)-Windows10环境下源码编译hadoop-2.9.2
基础环境准备都是常用开发环境,程序员一般都有这个环境,安装方法不赘述,实在不知道的自行百度1.下载源码并解压到D盘根目录下,查看编译说明。官网下载地址Github克隆地址Requirements:* Windows System* JDK 1.7 or 1.8* Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.0* CMake 2.6 or newer* Windows SD原创 2020-12-24 16:50:35 · 332 阅读 · 0 评论 -
Hadoop入门系列(9)-MapReduce简介+序列化+官网案例+InputFormat
概述MapReduce是一个分布式运算程序的编程框架,用于大规模数据集(大于1TB)的并行运算。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。优缺点优点:Mapreduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个程序可以分布到大量的廉价的pc机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特性使的Mapreduce编程变得非常流行。良好的扩展性项原创 2021-01-05 12:11:31 · 229 阅读 · 0 评论 -
Hadoop入门系列(8)-Spring Boot客户端操作HDFS
标题下载:https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gzHADOOP_HOMED:\javaDevelop\hadoop-2.9.2%HADOOP_HOME%\bin原创 2020-12-24 19:58:11 · 636 阅读 · 0 评论 -
Hadoop入门系列(6)-HDFS详解及操作命令
简介Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别很明显。HDFS具有高度的容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。HDFS最初是作为Apache Nutch Web搜索引擎项目的基础结构而构建的。HDFS是Apache Hadoop Core项目的一部分。优点原创 2020-12-23 13:55:16 · 1616 阅读 · 5 评论 -
Hadoop入门系列(5)-Hadoop集群搭建
环境准备准备三台centos7虚拟机,分配IP,并能ping通互联网。系统配置# 关闭防火墙systemctl stop firewalld && systemctl disable firewalld# 修改主机名称# scp 标题安装JDK(所有节点)安装SSH免密登录安装Hadoop,scp到其他节点scp -r root@hadoop001 /opt/soft ./集群文件分发脚本集群准备规划:hadoop001hadoop002原创 2020-12-23 13:44:16 · 197 阅读 · 0 评论 -
Hadoop入门系列(4)-Hadoop配置历史服务器+日志聚集
配置历史服务器可以启动历史服务器,方便查看程序历史运行情况# 配置mapred-site.xmlcd /opt/soft/hadoopvim etc/hadoop/mapred-site.xml# 添加 <!-- 历史服务器端地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>192.168.58.241:10原创 2020-12-02 15:46:05 · 203 阅读 · 0 评论 -
Hadoop入门系列(3)-Hadoop三种运行模式及案例
前言可以以三种支持的模式之一启动Hadoop集群:本地(独立)模式伪分布式模式全分布式模式本地(独立)模式案例默认情况下,Hadoop被配置为以非分布式模式作为单个Java进程运行。这对于调试很有用。下面的示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出被写入给定的输出目录。案例之grepcd /opt/soft/hadoopmkdir inputcp etc/hadoop/*.xml input# 运行一个jar,查找bin/hadoop原创 2020-12-02 15:45:38 · 465 阅读 · 0 评论 -
Hadoop入门系列(2)-安装Hadoop
安装JDK1.8# 查询yum search java|grep jdk# 安装yum install -y java-1.8.0-openjdk# 查看版本java -version单节点安装下载源码mkdir -p /opt/softcd /opt/soft# 安装wgetyum install -y wget# 下载源码wget https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.1.4/hadoop-原创 2020-12-02 14:48:23 · 185 阅读 · 0 评论 -
Hadoop入门系列(1)-简介
简介Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不依赖于硬件来提供高可用性,而是被设计用来检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性服务,而每台计算机都容易出现故障。Hadoop主要解决海量数据存储和分析计算。结构Hadoop Common:支持其他Hadoop模块的通用实用程序。Hadoop分布式文件系统(HDFS™):一种分布式原创 2020-12-01 10:55:46 · 388 阅读 · 0 评论