Hadoop
文章平均质量分 85
大数据入门学习--Hadoop篇(版本:3.1.3)
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
扛麻袋的少年
得过且过,一天又一天
展开
-
Hadoop 教程目录
目录:基于 Hadoop3.1.3版本 介绍Hadoop 专栏:大数据技术生态体系Hadoop 自定义脚本汇总Hadoop 入门基本了解Hadoop 2.10.1源码编译(Apache版—Linux环境)CentOS 7.7 安装 Hadoop 2.10.1集群CentOS 7.7 安装 Hadoop 3.1.3集群NameNode is still loading. Redirecting to the Startup Progress page 问题解决HDFS 优缺点 + 组成架构原创 2021-05-10 14:52:38 · 334 阅读 · 0 评论 -
大数据技术生态体系
开篇:大数据技术生态体系/推荐系统框架图原创 2021-04-06 15:42:33 · 334 阅读 · 1 评论 -
大数据领域自定义脚本汇总
汇总:1.xsync 集群分发脚本#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in hadoop102 hadoop103 hadoop104do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送原创 2021-04-07 09:17:07 · 243 阅读 · 0 评论 -
Hadoop 入门基本了解
一:Hadoop 入门基本了解1.Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决:海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念------Hadoop生态圈2.Hadoop发展史Lucene 框架是 Doug Cutting 开创的开源软件,用 Java 书写代码, 实现与 Google 类似的全文搜索功能,它提供了全文检索引擎架构,包括完整的查询引擎和索引引擎。原创 2020-10-28 17:45:56 · 370 阅读 · 0 评论 -
Hadoop 2.10.1源码编译(Apache版---Linux环境)
二:Hadoop 2.10.1源码编译(Apache版)1.准备工作apache-ant-1.9.15-bin.tar.gz ant下载地址apache-maven-3.6.3-bin.tar.gz maven下载地址jdk-8u261-linux-x64.tar.gzhadoop-2.10.1-src.tar.gz hadoop源码下载地址protobuf-2.5.0.tar.gz(必须是2.5.0版本,否则会报错)原创 2020-10-21 09:30:35 · 1122 阅读 · 3 评论 -
CentOS 7.7 安装 Hadoop 2.10.1集群
三:CentOS 7.7 安装 Hadoop 2.10.1集群1.Hadoop集群 Hadoop集群,具体来说包含两个集群:hdfs集群和yarn集群。两者逻辑上分离,但物理上常在一起。hdfs集群: 负责海量数据的存储工作。集群中的角色主要有 NameNode、DataNode、SecondaryDataNode。yarn集群: 负责海量数据运算时的资源调度。集群中的角色主要有ResourceManager、NodeManager。各个角色职责:原创 2020-10-29 15:03:20 · 1733 阅读 · 1 评论 -
CentOS 7.7 安装 Hadoop 3.1.3集群
四、CentOS 7.7 安装 Hadoop 3.1.3集群原创 2021-04-08 18:08:45 · 749 阅读 · 2 评论 -
NameNode is still loading. Redirecting to the Startup Progress page 问题解决
五:出现原因: 在我访问 2nn Web 界面,发现 moment() 函数原因导致内容无法显示。所以需要修改一下 dfs-dust.js 文件。自我认知: 因为2nn是配置在 Hadoop203 节点,所以我只需要修改203节点即可。所以就只在203节点修改了。报错咯: 错误代码:NameNode is still loading. Redirecting to the Startup Progress page修改后: 修改后发现2nn Web界面能够正常显示,原创 2021-04-08 15:59:46 · 1937 阅读 · 0 评论 -
HDFS 优缺点 + 组成架构 + Block块介绍
六、1.HDFS概述1.1 HDFS 产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有原创 2020-11-07 18:17:19 · 504 阅读 · 0 评论 -
HDFS Shell / Java API操作
七、HDFS Shell / Java API操作原创 2021-01-31 13:35:54 · 314 阅读 · 0 评论 -
HDFS写数据、读数据流程
八、HDFS读、写数据流程。本文内容,涉及到原理,在面试中会问到原创 2021-02-16 11:29:13 · 220 阅读 · 0 评论 -
NameNode和SecondaryNameNode、DataNode工作机制
九、NameNode和SecondaryNameNode、、DataNode工作机制,这部分内容涉及到原理,在面试中会问到原创 2021-02-16 14:40:11 · 192 阅读 · 1 评论 -
MapReduce介绍 + MR wordcount示例编写
十、1.MapReduce定义2.MapReduce优缺点Ⅰ.优点Ⅱ.缺点3.MapReduce核心思想4.MapReduce进程5.MR编码规范1.Mapper阶段2.Reducer阶段3.Driver阶段6.WordCount示例Ⅰ.Mapper代码Ⅱ.Reducer代码Ⅲ.Driver代码7.代码执行Ⅰ.Windows本地执行Ⅱ.Hadoop集群执行原创 2021-04-12 17:42:31 · 216 阅读 · 0 评论 -
Hadoop序列化
十一、Hadoop序列化 & bean对象序列化原创 2021-04-14 15:44:09 · 160 阅读 · 0 评论 -
MapReduce原理
十二、1.MapReduce执行过程分析2.一个job的MapTask并行度由何决定(由切片个数决定)3.切片机制Ⅰ.FileInputFormat 切片机制Ⅱ.CombineTextInputFormat 切片机制4.MapReduce详细工作流程原创 2021-04-16 13:52:09 · 401 阅读 · 6 评论 -
GroupingComparator辅助排序
十三、GroupingComparator辅助排序转载 2021-04-19 15:36:20 · 144 阅读 · 0 评论 -
MR之Shuffle机制(Partition分区、WritableComparable排序、Combiner合并、数据压缩)
十四、MR之Shuffle机制(Partition分区、WritableComparable排序、Combiner合并、数据压缩)原创 2021-04-19 17:37:27 · 517 阅读 · 0 评论 -
使用DBOutputFormat把MapReduce产生的结果集导入到 MySQL 中
十六、使用DBOutputFormat把MapReduce产生的结果集导入到 MySQL 中转载 2021-04-20 10:03:35 · 600 阅读 · 0 评论 -
自定义 OutputFormat 输出,指定数据写入到不同文件下
十七、自定义 OutputFormat 输出,指定数据写入到不同文件下原创 2021-04-20 11:04:41 · 353 阅读 · 0 评论 -
Hadoop 中的 Map Join 和 Reduce Join
十八、Hadoop 中的 Map Join 和 Reduce Join原创 2021-04-20 17:02:02 · 285 阅读 · 0 评论 -
Hadoop 用于 ETL
十九、Hadoop 用于 ETL原创 2021-04-20 17:13:42 · 1474 阅读 · 0 评论 -
Yarn工作流程、Yarn三大调度器介绍
二十一、Yarn工作流程、Yarn三大调度器介绍1.Yarn 基础架构2.Yarn工作机制Ⅰ.流程说明3.Yarn工作机制高清大图4.Yarn调度器和调度算法 (仅做了解即可)Ⅰ.FIFO调度器Ⅱ.容量调度器(Capacity Scheduler)1.特点2.资源分配算法Ⅲ.公平调度器(Fair Scheduler)1.缺额情况2.队列资源分配方式原创 2021-04-28 16:51:15 · 297 阅读 · 1 评论 -
yarn常用命令
二十二、yarn常用命令1.yarn application 查看任务Ⅰ.列出所有 ApplicationⅡ.根据 Application 状态过滤Ⅲ.Kill杀死某个任务2.yarn logs 查看日志Ⅰ.查看application(任务)日志Ⅱ.查看Container(容器)日志3.yarn applicationattempt 查看尝试运行的任务Ⅰ.列出某个application尝试的列表Ⅱ.查询ApplicationAttempt状态4.yarn container 查看容器原创 2021-04-29 10:41:58 · 524 阅读 · 0 评论 -
yarn生产环境核心参数介绍
二十三、yarn生产环境核心参数介绍原创 2021-04-29 16:22:31 · 363 阅读 · 0 评论 -
Yarn 生产环境核心参数配置、多队列/优先级配置
二十四1.Yarn 生产环境核心参数配置2.容量调度器多队列配置 & 提交至指定队列案例3.任务优先级配置4.公平调度器多队列配置 & 提交至指定队列案例原创 2021-04-30 17:13:11 · 606 阅读 · 0 评论 -
Yarn 的 Tool接口,实现MR程序
二十五、Yarn 的 Tool接口,实现MR程序原创 2021-05-06 09:09:07 · 625 阅读 · 1 评论 -
搭建 Hadoop-3.1.3 HA 集群
二十六、搭建 Hadoop-3.1.3 HA 集群原创 2021-06-16 16:24:29 · 556 阅读 · 0 评论 -
Hadoop生产调优篇
二十七、第 1 章 HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置第 2 章 HDFS—集群压测2.1 测试 HDFS 写性能2.2 测试 HDFS 读性能第 3 章 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡第 4 章 HDFS—集群扩容及缩容4.1 添加白名单4.2 服役新服务器4.3 服务器间数据均衡4.4 黑名单退役服务器第 5 章 HDFS—存储优原创 2021-05-10 14:38:25 · 189 阅读 · 0 评论