Hadoop
文章平均质量分 56
weixin_42073629
这个作者很懒,什么都没留下…
展开
-
Hadoop之——Hadoop3.x集群动态增加和删除DataNode与NodeManager节点
https://blog.csdn.net/l1028386804/article/details/94164259转载 2021-08-22 21:17:54 · 271 阅读 · 0 评论 -
Hadoop之——基于3台服务器搭建Hadoop3.x集群
https://blog.csdn.net/l1028386804/article/details/94164259转载 2021-08-22 21:16:03 · 131 阅读 · 0 评论 -
Spark和Hadoop作业之间的区别
Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的。 熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce Task,如下图所示:而在Spark中,也有Job概念,但是这里的Job和Mapreduce中的Job不一样原创 2021-07-11 13:52:16 · 95 阅读 · 0 评论 -
HDFS技术原理(下)
HDFS体系结构HDFS体系结构概述:HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。HDFS命名空间管理: HDFS转载 2021-04-14 18:45:27 · 859 阅读 · 0 评论 -
HDFS技术原理(上)
HDFS概述:HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发,运行在通用硬件平台上的分布式文件系统。其除具有其他分布式文件系统的相同特性外,还有自己特有的特性: 高容错性:认为硬件总是不可靠的。 高吞吐量:为大量数据访问的应用提供高可用吞吐量支持。 大文件存储:支持存储TB-PB级别的数据。 HDFS适合做:大文件存储、流式数据访问。HDFS不适合做:大量小文件、随机写入、低延迟读取。HDFS应用转载 2021-04-14 18:43:54 · 161 阅读 · 0 评论 -
基于 ZooKeeper 搭建 Hadoop 高可用集群
一、高可用简介Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解:1.1 高可用整体架构HDFS 高可用架构如下:图片引用自:https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-hi原创 2020-08-11 23:18:13 · 342 阅读 · 0 评论 -
hadoop成员
hadoop成员简单介绍说明ApacheHadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统 (HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ApachePig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-L...原创 2020-10-07 02:24:43 · 167 阅读 · 0 评论 -
Hadoop案例(十一)MapReduce的API使用
一学生成绩---增强版数据信息computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,liuyifei,75,85,62,48,54,96,15computer,hua原创 2020-10-02 02:50:39 · 669 阅读 · 0 评论 -
Hadoop案例(十)WordCount
WordCount案例需求1:统计一堆文件中单词出现的个数(WordCount案例)0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数1)数据准备:Hello.txthello worlddog fishhadoop sparkhello worlddog fishhadoop sparkhello worlddog fishhadoop spark2)分析按照mapreduce编程规范,分别编写Mapper,Reducer,Dri原创 2020-10-02 02:10:35 · 553 阅读 · 0 评论 -
Hadoop案例(九)流量汇总案例
流量汇总程序案例1.自定义输出统计手机号耗费的总上行流量、下行流量、总流量(序列化)1)需求:统计每一个手机号耗费的总上行流量、下行流量、总流量2)数据准备 phone_date.txt13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 20013826544101 5C-0E-8B-C7-F1-E0:CM.原创 2020-10-02 02:01:08 · 379 阅读 · 0 评论 -
Hadoop案例(八)辅助排序和二次排序案例(GroupingComparator)
辅助排序和二次排序案例(GroupingComparator)1.需求有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8原创 2020-10-02 01:53:50 · 178 阅读 · 0 评论 -
Hadoop案例(七)MapReduce中多表合并
MapReduce中多表合并案例一.案例需求订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt1001 01 11002.原创 2020-10-02 01:41:03 · 1299 阅读 · 1 评论 -
Hadoop案例(六)小文件处理(自定义InputFormat)
小文件处理(自定义InputFormat)1.需求分析无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。2.数据准备one.txtyongpeng weidong weinansanfeng luozong xiaomingtwo.txt.原创 2020-10-02 01:34:07 · 199 阅读 · 0 评论 -
Hadoop案例(五)过滤日志及自定义日志输出路径(自定义OutputFormat)
过滤日志及自定义日志输出路径(自定义OutputFormat)1.需求分析过滤输入的log日志中是否包含xyg(1)包含xyg的网站输出到e:/xyg.log(2)不包含xyg的网站输出到e:/other.log2.数据准备http://www.baidu.comhttp://www.google.comhttp://cn.bing.comhttp://www.xyg.comhttp://www.sohu.comhttp://www.sina.comhttp://www原创 2020-10-02 00:06:50 · 251 阅读 · 0 评论 -
Hadoop案例(四)倒排索引(多job串联)与全局计数器
一.倒排索引(多job串联)1.需求分析有大量的文本(文档、网页),需要建立搜索索引xyg pingpingxyg ssxyg ssxyg pingpingxyg pingpingpingping ssxyg ssxyg pingping(1)第一次预期输出结果xyg--a.txt 3xyg--b.txt 2xyg--c.txt 2pingping--a.txt 1pingping--b.txt 3pingping--c.txt 1ss-..原创 2020-10-01 18:35:36 · 235 阅读 · 0 评论 -
Hadoop案例(三)找博客共同好友
找博客共同好友案例1)数据准备以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J多对多的关系数据库:学生 课程 成绩表 学生表原创 2020-10-01 18:25:47 · 191 阅读 · 0 评论 -
Hadoop案例(二)压缩解压缩
压缩/解压缩案例一.对数据流的压缩和解压缩CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStream,将其以压缩格式写入底层的流。相反,要想对从输入流读取而来的数据进行解压缩,则调用createInputStream(InputStreamin)函数,从而获得一个CompressionInputStre.原创 2020-10-01 18:17:49 · 428 阅读 · 0 评论 -
Hadoop案例(一)之日志清洗
日志清洗案例一.简单解析版1)需求去除日志中字段长度小于等于11的日志。2)输入数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0.原创 2020-10-01 18:08:58 · 582 阅读 · 0 评论 -
Hadoop(八)Hadoop数据压缩与企业级优化
一 Hadoop数据压缩1.1概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和.原创 2020-10-01 17:58:47 · 321 阅读 · 0 评论 -
Hadoop(七)YARN的资源调度
一、YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版本中重新设计的这个 YARN 集群,具有更好的扩展性,可用性,可靠性,向后兼容性,以 及能支持除 .原创 2020-10-01 17:38:39 · 334 阅读 · 0 评论 -
Hadoop(六)MapReduce的入门与运行原理
一 MapReduce入门1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC 机器运行。也就是说你写.原创 2020-10-01 17:19:14 · 231 阅读 · 0 评论 -
Hadoop(五)分布式集群中HDFS系统的各种角色
NameNode学习目标理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力问题场景1、Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集群及数据?2、Namenode 是否可以有多个?namenode 内存要配置多大?namenode 跟集群数据存储能 力有关系吗?3、文件的 blocksize 究竟调大好还是调小好?结合 map原创 2020-10-01 02:36:45 · 354 阅读 · 0 评论 -
Hadoop(四)HDFS的高级API操作
一 HDFS客户端环境准备1.1jar包准备1)解压hadoop-2.7.6.tar.gz到非中文目录2)进入share文件夹,查找所有jar包,并把jar包拷贝到_lib文件夹下3)在全部jar包中查找sources.jar,并剪切到_source文件夹。4)在全部jar包中查找tests.jar,并剪切到_test文件夹1.2Eclipse准备1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:E:\02_software\hadoop-..原创 2020-10-01 02:32:35 · 483 阅读 · 0 评论 -
Hadoop(三)HDFS读写原理与shell命令
一 HDFS概述1.1 HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。原创 2020-10-01 02:18:05 · 426 阅读 · 0 评论 -
Hadoop(二)CentOS7.5搭建Hadoop2.7.6完全分布式集群
一 完全分布式集群(单点)Hadoop官方地址:http://hadoop.apache.org/1 准备3台客户机1.1防火墙,静态IP,主机名关闭防火墙,设置静态IP,主机名此处略,参考Linux之CentOS7.5安装及克隆1.2 修改host文件我们希望三个主机之间都能够使用主机名称的方式相互访问而不是IP,我们需要在hosts中配置其他主机的host。因此我们在主机的/etc/hosts下均进行如下配置:[root@node21 ~]# vi /etc/host...原创 2020-09-30 02:02:29 · 442 阅读 · 0 评论 -
Hadoop(一)Hadoop的简介与源码编译
一 Hadoop简介1.1Hadoop产生的背景1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问,如何解决数十亿网页的存储和索引问题。2.2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。分布式文件系统(GFS),可用于处理海量网页的存储 分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。 BigTable 数据库:OLTP 联机事..原创 2020-09-30 00:39:15 · 285 阅读 · 0 评论 -
Hadoop 系列7—— HDFS Java API
一、 简介想要使用HDFS API,需要导入依赖hadoop-client。如果是CDH版本的Hadoop,还需要额外指明其仓库地址:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc原创 2020-08-26 23:42:00 · 137 阅读 · 0 评论 -
Hadoop 系列6—— HDFS 常用 Shell 命令
1. 显示当前目录结构# 显示当前目录结构hadoop fs -ls <path># 递归显示当前目录结构hadoop fs -ls -R <path># 显示根目录下内容hadoop fs -ls /2. 创建目录# 创建目录hadoop fs -mkdir <path> # 递归创建目录hadoop fs -mkdir -p <path> 3. 删除操作# 删除文件hadoop fs -rm..原创 2020-08-26 23:31:43 · 175 阅读 · 0 评论 -
Hadoop 系列5—— Hadoop集群环境搭建
一、集群规划这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署DataNode和NodeManager服务,但只有 hadoop001 上部署NameNode和ResourceManager服务。二、前置条件Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独整理至:Linux 下 JDK 的安装三、配置免密登录3.1 生成密匙在每台主机上使用ssh-keygen命令生成公钥私钥对:ssh-keygen3.2 免密登录...原创 2020-08-25 23:10:01 · 190 阅读 · 1 评论 -
Hadoop 系列4—— Hadoop单机伪集群环境搭建
一、前置条件Hadoop 的运行依赖 JDK,需要预先安装,安装步骤见:Linux 下 JDK 的安装二、配置免密登录Hadoop 组件之间需要基于 SSH 进行通讯。2.1 配置映射配置 ip 地址和主机名映射:vim /etc/hosts# 文件末尾增加192.168.43.202 hadoop0012.2 生成公私钥执行下面命令行生成公匙和私匙:ssh-keygen -t rsa2.3 授权进入~/.ssh目录下,查看生成的公匙和私匙,并..原创 2020-08-25 23:02:38 · 112 阅读 · 0 评论 -
Hadoop 系列3—— 分布式计算框架 MapReduce
一、MapReduce概述Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由map以并行的方式处理,框架对map的输出进行排序,然后输入到reduce中。MapReduce 框架专门用于<key,value>键值对处理,它将作业的输入视为一组<key,value>对,并生成一组<ke...原创 2020-08-25 22:09:32 · 229 阅读 · 0 评论 -
Hadoop 系列2—— 集群资源管理器 YARN
一、hadoop yarn 简介Apache YARN(Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。二、YARN架构1. ResourceManagerResourceManager通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。ResourceManager负责给用户提交的所有应用程序分配资源...原创 2020-08-25 22:03:23 · 309 阅读 · 0 评论 -
Hadoop 系列1—— 分布式文件系统 HDFS
一、介绍HDFS(Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。二、HDFS 设计原理2.1 HDFS 架构HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:NameNode: 负责执行有关文件系统命名空间的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。 Da...原创 2020-08-25 22:01:10 · 237 阅读 · 0 评论