Hadoop
不稳定记忆
静心则专,静思则通,静身则安,静默则熟。
展开
-
dfs.namenode.handler.count
dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not config...原创 2020-01-20 11:26:19 · 3163 阅读 · 2 评论 -
退役旧数据节点(开发面试重点)
1)在namenode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts.exclude文件 [atguigu@hadoop102 hadoop]$ pwd/opt/module/hadoop-2.7.2/etc/hadoop[atguigu@hadoop102 hadoop]$ touch dfs.hosts.exclud...原创 2019-12-06 11:43:08 · 160 阅读 · 0 评论 -
服役新数据节点(开发面试重点)
0)需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1)环境准备 (1)克隆一台虚拟机 (2)修改ip地址和主机名称 (3)修改xcall和xsync文件,增加新`增节点的同步ssh (4)删除原来HDFS文件系统留存的文件 ...原创 2019-12-06 11:41:28 · 191 阅读 · 0 评论 -
HDFS 2.X新特性
1 集群间数据拷贝1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull...原创 2019-12-03 13:38:09 · 138 阅读 · 0 评论 -
用IDEA创建Maven得HDFS环境的依赖和日志
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version>...原创 2019-12-02 13:44:21 · 303 阅读 · 0 评论 -
大数据系列cdh版本下载
Apache的hadoop下载地址地址:https://archive.apache.org/dist/hadoop/common/CDH的hadoop下载地址地址:http://archive.cloudera.com/cdh5/cdh/5/下载案例首先找到下载的地址,然后再后面加上.tar.gz就可以下载了CDH的下载工具都在http://archive.clou...原创 2019-10-13 13:28:59 · 1162 阅读 · 0 评论 -
MapReduce实战之压缩/解压缩案例
1 数据流的压缩和解压缩CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStream,将其以压缩格式写入底层的流。相反,要想对从输入流读取而来的数据进行解压缩,则调用createInputStream...原创 2019-09-09 21:16:05 · 321 阅读 · 0 评论 -
MapReduce实战之找博客共同好友案例
1)需求:以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)输入数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H...原创 2019-09-09 21:13:38 · 386 阅读 · 0 评论 -
MapReduce实战之倒排索引案例(多job串联)
0)需求:有大量的文本(文档、网页),需要建立搜索索引输出数据:a:atguigu pingpingatguigu ssatguigu ssb:atguigu pingpingatguigu pingpingpingping ssc:atguigu ssatguigu pingping(1)第一次预期输出结果 atguigu--a.txt 3...原创 2019-09-09 21:11:37 · 279 阅读 · 0 评论 -
MapReduce实战之日志清洗案例
简单解析版1)需求:去除日志中字段长度小于等于11的日志。2)输入数据 数据有点大3)实现代码:(1)编写LogMapper package com.atguigu.mapreduce.weblog; import java.io.IOException; import org.apache.hadoop.io.LongWritable...原创 2019-09-09 21:06:47 · 371 阅读 · 0 评论 -
MapReduce实战之 MapReduce中多表合并案例
MapReduce中多表合并案例1)需求:订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 ...原创 2019-09-09 20:54:34 · 886 阅读 · 0 评论 -
MapReduce实战之过滤日志及自定义日志输出路径案例(自定义OutputFormat)
1)需求 过滤输入的log日志中是否包含atguigu (1)包含atguigu的网站输出到e:/atguigu.log (2)不包含atguigu的网站输出到e:/other.log2)输入数据http://www.baidu.comhttp://www.google.comhttp://cn.bing.comhttp://www.a...原创 2019-09-09 20:47:16 · 314 阅读 · 0 评论 -
MapReduce实战之小文件处理案例(自定义InputFormat)
小文件处理案例(自定义InputFormat)1)需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。2)输入数据1:yongpeng weidon...原创 2019-09-09 20:42:32 · 303 阅读 · 0 评论 -
MapReduce实战之KeyValueTextInputFormat使用案例
1)需求:统计输入文件中每一行的第一个单词相同的行数。2)输入文件:banzhang ni haoxihuan hadoop banzhang dcbanzhang ni haoxihuan hadoop banzhang dc3)输出 banzhang 2xihuan 24)代码实现(1)编写mapper package com...原创 2019-09-10 08:27:56 · 466 阅读 · 0 评论 -
MapReduce实战之NLineInputFormat使用案例
1)需求:根据每个输入文件的行数来规定输出多少个切片。例如每三行放入一个切片中。2)输入数据:banzhang ni haoxihuan hadoop banzhang dcbanzhang ni haoxihuan hadoop banzhang dcbanzhang ni haoxihuan hadoop banzhang dcbanzhang ni hao...原创 2019-09-10 08:28:10 · 365 阅读 · 0 评论 -
Linux中hive无法使用Delete和Backspace删除键
问题:如下红色格格,里面的字母无法删除:解决方法:1. 找到选项框中的 :选项−>会话选项2.打开会话选项后,找到:终端−>仿真终端−>仿真,这时候可以看到红色的格格中是ANSIANSI,这就是问题症结所在:3.在下拉菜单中选择LinuxLinux,再点击确定确定即可达到我们的目的。...原创 2019-09-11 17:25:39 · 479 阅读 · 0 评论 -
数据仓库
1 什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)如何优化...原创 2019-09-21 11:24:15 · 702 阅读 · 0 评论 -
Hadoop群启脚本和关闭(YARN、HDFS、Zookeeper、JobHistoryServer)
注意配置 ~ 目录下的(.bashrc)文件,在其中配置JAVA_HOME,并source ~/.bashrc全部机器都配置哦群启:#!/bin/baseecho "============== 正在启动Zookeeper服务 ==============="for i in root@Faded103 root@Faded104 roo...原创 2019-09-22 13:21:22 · 728 阅读 · 0 评论 -
Hadoop配置文件参数详解
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.7.2。etc/hadoop/core-site.xml参数 属性值 解释 fs.defaultFS NameNode URI hdfs://host:port/ io.file.buffer.size 131...原创 2019-10-06 17:07:05 · 522 阅读 · 0 评论 -
HDFS-HA高可用
1 HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群 NameNode机...原创 2019-10-11 11:32:46 · 177 阅读 · 0 评论 -
YARN-HA配置
1 YARN-HA工作机制1)官方文档:http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html2)YARN-HA工作机制2 配置YARN-HA集群0)环境准备(1)修改IP(2)修改主机名及主机名和IP地址的映射(3)关闭防火墙(4)ss...原创 2019-10-11 11:36:38 · 756 阅读 · 0 评论 -
HFDS命令行操作(开发重点)
1)基本语法bin/hadoop fs 具体命令2)参数大全 [faded@faded102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] ...原创 2019-06-09 23:17:39 · 2421 阅读 · 0 评论 -
MapReduce实战之辅助排序和二次排序案例
辅助排序和二次排序案例1)需求有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_06 25.8 0000002 ...原创 2019-09-09 20:38:41 · 376 阅读 · 2 评论 -
MapReduce实战之流量汇总案例
2.1 需求1:统计手机号耗费的总上行流量、下行流量、总流量(序列化)1)需求:统计每一个手机号耗费的总上行流量、下行流量、总流量2)数据准备1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 ...原创 2019-09-09 20:32:21 · 591 阅读 · 0 评论 -
HDFS的数据流
1 HDFS写数据流程1.1 剖析文件写入1)客户端通过Distributed FileSystem模块向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn...原创 2019-06-09 23:49:20 · 192 阅读 · 0 评论 -
HDFS概述
1 HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2 HDFS概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务...原创 2019-06-09 23:15:26 · 223 阅读 · 0 评论 -
Hadoop编译源码
1 前期准备工作1)CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2)jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-7u79-linux-x64.gz(3...原创 2019-06-09 23:10:31 · 115 阅读 · 0 评论 -
Hadoop运行模式
1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模式(1)本地...原创 2019-06-09 23:09:00 · 520 阅读 · 0 评论 -
HDFS客户端操作
1 HDFS客户端环境准备1.1 jar包准备1)解压hadoop-2.7.2.tar.gz到非中文目录2)进入share文件夹,查找所有jar包,并把jar包拷贝到_lib文件夹下3)在全部jar包中查找sources.jar,并剪切到_source文件夹。4)在全部jar包中查找tests.jar,并剪切到_test文件夹。1.2 Eclipse准备1)根据自己电脑...原创 2019-06-09 23:18:05 · 409 阅读 · 0 评论 -
Hadoop序列化
1 为什么要序列化?一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。2 什么是序列化?序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(...原创 2019-06-14 18:43:48 · 140 阅读 · 0 评论 -
MapReduce入门
1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。2 MapReduce优缺点2.1 优点1)MapReduce易于编程。它简单的实现一些接口,就可以完成一个...原创 2019-06-13 22:34:51 · 119 阅读 · 0 评论 -
NameNode工作机制
1 NameNode&Secondary NameNode工作机制1)第一阶段:namenode启动(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增删改查...原创 2019-06-10 21:26:38 · 2420 阅读 · 1 评论 -
大数据概论
一、大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K = 10...原创 2019-06-04 21:20:45 · 372 阅读 · 0 评论 -
MapReduce实战之WordCount案例
WordCount案例1.1 需求1:统计一堆文件中单词出现的个数0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数1)数据准备:hello worldatguigu atguiguhadoopsparkhello worldatguigu atguiguhadoopsparkhello worldatguigu atguiguhadoops...原创 2019-09-09 20:20:41 · 563 阅读 · 0 评论 -
Hadoop企业优化
1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。...原创 2019-09-09 00:40:43 · 107 阅读 · 0 评论 -
Yarn
1 Hadoop1.x和Hadoop2.x架构区别在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。2 Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapRed...原创 2019-09-09 00:36:58 · 961 阅读 · 1 评论 -
Hadoop数据压缩
1 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、...原创 2019-09-08 20:02:38 · 185 阅读 · 0 评论 -
MapReduce框架原理
1 MapReduce工作流程1)流程示意图2)流程详解上面的流程是整个mapreduce最全工作流程,但是shuffle过程只是从第7步开始到第16步结束,具体shuffle过程详解,如下:1)maptask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4)在...原创 2019-09-04 00:05:18 · 324 阅读 · 0 评论 -
大数据开发学习路线
目录前言导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第十章:牛逼高大上的机器学习目录最近看到一篇很不错的文章,献给正在学习大数据的你我他。如果能答出文章中大部分问题,那么恭喜你...转载 2019-06-18 09:10:02 · 396 阅读 · 0 评论 -
HDFS其他功能
1 集群间数据拷贝1)scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/faded/hello.txt // 推 push scp -r root@hadoop103:/user/faded/hello.txt hello.txt // 拉 pull...原创 2019-06-12 00:34:27 · 155 阅读 · 0 评论