Hadoop
小Huya
加油!努力!明天会更好!!!
展开
-
MR从读取数据开始到将最终结果写入HDFS经过哪些步骤(数据层面和内存层面)
数据层面第一步:inputformat数据读取||输出给Split||第二步:split进行数据逻辑切分||输出给RR||第三步:recordReader(将数据以\n切分,进行再次切分,并输出key(行首偏移量),value(一行的数据))||输出给Map||第四步:Map接受key(行首偏移量),value(一行的数据),根域业务需求编写代码,输出(key...原创 2019-11-16 10:59:47 · 3892 阅读 · 0 评论 -
Hadoop YARN 介绍
1. Yarn通俗介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式的操作系统平台,而mapredu...原创 2020-04-23 08:34:55 · 5121 阅读 · 0 评论 -
相同手机号的数据存入到按当前按手机号进行命名的文件当中(多文件输入输出)
import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/** * @author huangdonghu * @version 1.0 * @dat...原创 2019-11-15 08:32:29 · 3231 阅读 · 1 评论 -
让我们一起来认识和学习一下MapReduce吧
理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖...原创 2019-11-13 08:17:11 · 3262 阅读 · 2 评论 -
HDFS的javaAPI操作
创建maven工程并导入jar包由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅https://www.cloudera.com/documentation/enterpri...原创 2019-11-07 20:12:14 · 3259 阅读 · 2 评论 -
HDFS新增节点与删除节点
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-11-06 21:23:59 · 3327 阅读 · 0 评论 -
HDFS的shell命令操作
通过如下的命令可以获取所有的参数[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src>...原创 2019-11-05 16:13:51 · 3221 阅读 · 0 评论 -
Hadoop详解
目录 Hadoop的介绍以及发展历史 Hadoop的历史版本介绍 Hadoop三大公司发型版本介绍 Hadoop的模块组成 Hadoop的架构模型(1.x,2.x的各种架构模型介绍)Hadoop的介绍以及发展历史Hadoop之父Doug CuttingHadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询...原创 2019-10-31 18:01:13 · 3311 阅读 · 1 评论 -
大数据hadoop集群安装部署
目录准备工作准备工作准备一台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是Centos6.9 64位的操作系统(注意:一定要使用64位的操作系统)准备一台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是Centos6.9 64位的操作系统(注意:一定要使用64位的操作系统)...原创 2019-11-01 17:18:05 · 3281 阅读 · 0 评论