---Hadoop
文章平均质量分 61
大数据学习二级分类,涉及Hadoop,MapReduce,HDFS。
狭义上的Hadoop是一个分布式系统基础框架,广义的Hadoop指的是一种大数据解决思路,或者指的就是这个数据的时代。
寒 暄
自渡
展开
-
Hadoop 踩坑小记
org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory XXX not formatted1.关停集群2.启动zkzkServer.sh start3.启动journalnodehdfs --daemon start 启动journalnode4.初始化journalnodehdfs namenode -initializeSharedEditsorg.原创 2021-08-19 09:49:27 · 302 阅读 · 1 评论 -
1.2.3什么是YARN
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 什么是YARN Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源...原创 2020-01-28 13:50:01 · 221 阅读 · 0 评论 -
HDFS架构剖析和双缓存机制
HDFS的架构演变HDFS(Hadoop Distributed File System)的架构演变其实就是Hadoop的更新迭代的过程,目前Hadoop有Hadoop1、Hadoop2、Hadoop3三个版本,对应的就有HDFS1,HDFS2,HDFS3。HDFS1HDFS1是一个主从架构,主节点只有一个叫NameNode,从节点可以由多个叫DataNode。NameNode的职责:管理元数据信息(文件目录树):文件与Block块,Block块与DataNode主机的关系NameNode为了原创 2020-12-18 16:21:53 · 949 阅读 · 2 评论 -
CDH运维常见问题-HDFS 金丝雀
背景:因为对HDFS进行一些非常规操作,HDFS进入安全模式,报金丝雀异常。检查hdfs是否处于safemodehdfs dfsadmin -safemode get显示:Safe mode is OFF 则为正常,此时去主页发现报错消失如果显示其他的:hadoop dfsadmin -safemode leave强行分离。如果这时报块损失错误:# 检查缺失块hdfs fsck -list-corruptfileblockshdfs fsck / | egrep -原创 2020-07-16 09:10:58 · 2069 阅读 · 0 评论 -
CDH运维常见问题-Failed to connect to newly launched supervisor.XX
先进入CDH的init.d目录。杀死旧的agent进程,然后再启动。[root@cm1 init.d]# netstat -tupnl |grep 19001 tcp 0 0 127.0.0.1:19001 0.0.0.0:* LISTEN 1767/python[root@cm1 init.d]# kill -9 1767[root@cm1 init.d]# ./cloudera-scm-agent start...原创 2020-07-10 10:15:20 · 568 阅读 · 0 评论 -
CDH运维常见问题-cloudera-scm-agent 已死,但 pid 文件存在
问题描述解决方案在CDH安装目录下的run目录下有两个目录,分别是cloudera-scm-agent和cloudera-scm-server,哪个服务死了就进哪个目录,然后删掉对应的pid文件。再查看状态就是已停止,再启动就行。...原创 2020-07-02 13:42:40 · 3989 阅读 · 0 评论 -
CDH集成Spark2
下载组件CDH5.12默认集成spark1.6,更换为spark2需要下载四个文件:SPARK2_ON_YARN-2.2.0.cloudera1.jarhttp://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.2.0.cloudera1.jarSPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-xenial.parcelhttp://archive.cloudera.com/spark2/parce原创 2020-06-12 14:15:43 · 556 阅读 · 2 评论 -
1.8 Ambari+HDP搭建hadoop(一)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fdAmbari+HDP简介虚拟机准备主机名IP角色内存核数磁盘ambari.lh.com192.168.10.190Ambari+HDP2G120Gm...原创 2020-04-03 15:46:44 · 511 阅读 · 0 评论 -
1.8 Ambari+HDP搭建hadoop(二)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fdHDP版本对照图对照图注:HDP3以上的版本不再支持Flume。部署前的准备配置数据库建立ambari数据库这里是因为ambari需要一个数据库存放元数据与用户信息。...原创 2020-04-08 14:03:53 · 687 阅读 · 0 评论 -
1.9CDH搭建Hadoop集群(一)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fdAmbari+HDP简介虚拟机准备主机名IP角色内存核数磁盘hadoop01192.168.10.201Master4G120Ghadoop021...原创 2020-04-09 16:48:55 · 498 阅读 · 0 评论 -
1.9CDH搭建Hadoop集群(二)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd解压cloudera-managermkdir -p /usr/hdk/module/cloudera-managertar -zxvf cloudera-manager-centos7-c...原创 2020-04-16 15:56:34 · 260 阅读 · 0 评论 -
1.2.2什么是MapReduce
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 什么是MapReduce MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Goog...原创 2020-01-26 17:50:42 · 321 阅读 · 0 评论 -
1.1什么是Hadoop
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 起源 起源.jpg 起源可以分为三步,Google提出思想,并实现了内部的大数据系统,这让其他人知道这种解决方式是可行的...原创 2020-01-03 19:19:52 · 306 阅读 · 0 评论 -
1.3.4.1手动Hadoop-HA(高性能模式)搭建
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 前言 本文基于已经完成完全分布式配置的集群进行。 1.环境变量配置 2.ssh免密 3.java环境配置 ...原创 2020-01-10 16:17:43 · 163 阅读 · 0 评论 -
1.2.2.1Job的提交(源码解读)
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd Job的实例化 Configuration con = new Configuration(); //读取...原创 2020-01-29 17:04:50 · 832 阅读 · 0 评论 -
1.2.1什么是HDFS
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 这一篇从存储模型,结构模型,角色,优缺点,读写流程和其他方面说明HDFS。 概述 HDFS(Hadoop Distri...原创 2020-01-03 20:02:49 · 283 阅读 · 0 评论 -
1.3.4.2自动Hadoop-HA(高性能模式)搭建
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 前言 本文基于已经完成完全分布式配置的集群进行。 1.环境变量配置 2.ssh免密 3.java环境配置 ...原创 2020-01-25 00:08:10 · 210 阅读 · 0 评论 -
1.3HADOOP搭建
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd原创 2020-01-09 16:33:11 · 127 阅读 · 0 评论 -
1.3.3完全分布式搭建
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 完全分布 搭建前的准备:https://www.jianshu.com/p/1458acc07552 cp -R...原创 2020-01-08 21:26:15 · 235 阅读 · 0 评论 -
1.3.2伪分布式搭建
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 前言 搭建前的准备:https://www.jianshu.com/p/1458acc07552 关于hadoop的搭建,我们先熟悉...原创 2020-01-08 21:16:44 · 319 阅读 · 0 评论 -
1.3.4HADOOP-HA理论篇
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 概述 1.概述 HA模式用白话来说就是,在工作开始前,指定老大和老二,老大因为可抗力或不可抗力失去工作能力...原创 2020-01-09 14:04:42 · 280 阅读 · 0 评论 -
1.3.1搭建Hadoop前的准备
总目录:https://www.jianshu.com/p/e406a9bc93a9 Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd 硬件环境设置 参数列表:虚拟机一:192.168.110.220 主机名:master虚拟机二:192.168.110.221 主...原创 2020-01-08 21:00:36 · 266 阅读 · 0 评论 -
1.2.2.5MapReduce实例
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd天气案例经典案例myclient.java :客户端package com.SL.tq;import java.io.IOException;import org.apache....原创 2020-03-21 11:42:08 · 133 阅读 · 0 评论 -
1.2.2.3Reduce-Task(源码解读)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fdReduce-Task的源码是只有输入这一部分,输出就直接输出到硬件中了。第一层org.apache.hadoop.mapred.ReduceTask类 @Override @Sup...原创 2020-03-21 10:18:35 · 209 阅读 · 0 评论 -
1.2.2.2Map-Task(源码解读)
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fdMap-Task的源码分为两部分,一部分是我们对map的输入(包含实例化),另一部分是因为有了输入,所以也造成了输出。我们先看第一部分,我们对map的输入:map的实例化第一层...原创 2020-03-20 21:29:57 · 234 阅读 · 0 评论 -
1.2.2.4eclipse开发MapReduce
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd开发环境搭建:阶段一:安装eclipse Linux版。下载hadoop-eclipse-plugin-XXX.jar,xxx为hadoop版本号。下载完成后,将插件放到eclipse安装...原创 2020-03-21 11:25:51 · 261 阅读 · 0 评论