![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
韩韩的博客
在读学生。座右铭:愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。愿君安。
展开
-
一句话理解hadoop合并和归并的关系
合并是指combiner的过程,combiner是对重复的key合并在一起,减少冗余信息。是对key的操作。归并是两个有序文件合并成一个有序文件,是对文件的操作。...原创 2020-03-15 09:03:48 · 3468 阅读 · 0 评论 -
一句话搞懂hadoop分区分组的不同
分组发生在reducetask阶段,分组是针对同一个区的数据进行分组。分组的目的是为了让不同组的数据进入reduce进行处理。分区发生在maptask阶段,分区的目的是为了让数据进入哪个reducetask。...原创 2020-03-15 08:58:42 · 588 阅读 · 0 评论 -
Hadoop的单词个数统计程序(可复现)
(1)在文件夹下写定一个hello.txt文件。python hellojava pythonc++ javapython php(2)然后编写一个入门级的mapreduce程序。一个mapreduce程序分为Mapper、Reducer、Driver。本程序使用maven.pom.xml代码如下。<dependencies> <dependency>...原创 2020-03-10 22:07:34 · 504 阅读 · 0 评论 -
白话理解Hadoop的NameNode和SecondaryNameNode工作机制
NameNode里的元数据是用来找到DataNode的,但是这些元数据是存储在哪里的呢?元数据的存储位置无非是存储在内存里或者硬盘里,但是存在硬盘里,主机访问的时候时间太长,放在内存里,会明显提高访问的效率,但是存在内存里也有一个坏处,就是一旦设备断电,内存里的元数据也会消失,所以需要对元数据进行持久化。元数据持久化有两种方式:一种是fsimage,一种是edit日志。fsimage是edit...原创 2020-03-08 14:25:30 · 243 阅读 · 0 评论 -
Hadoop格式化NameNode可能会出现的问题
本文从原理上讲解格式化NameNode可能会出现的问题。格式化NameNode的命令hdfs namenode -format我们每次格式化namenode之后都会产生一个新的标记namenode的id,而这个id也是在datanode里面有的。这个标记会缓存在你的hadoop的缓存文件里,当你格式化namenode之后,你的datanode的id还在,但是你的namenode的id变化了...原创 2020-02-28 20:27:11 · 2311 阅读 · 1 评论 -
Hadoop Mapreduce分区、分组、二次排序过程一篇文章看懂(结合实例)
1、MapReduce中数据流动(1)最简单的过程: map - reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce(3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce2、Mapreduce中Partition...转载 2019-12-22 17:37:20 · 304 阅读 · 0 评论 -
maven的安装及配置(零基础版本)
Maven的介绍及安装:Maven是Apache的顶级项目之一,是一个项目管理工具。Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。Maven分为两种:一种是脱机maven jar仓库,另一种是联网库Maven的安装:1.下载maven的压缩包: 官网2.将压缩包进行解压。3.配置maven的环境变量:(1)新建M2_HO...原创 2019-11-02 12:04:27 · 396 阅读 · 0 评论 -
在eclipse上面读写hdfs中的文件
准备工作:1.在创建工程之前,我们需要将hadoop的所有jar准备好。解压之后如图所示。2.里面jar包非常全面,我们将所有jar包复制出来。在搜索框中输入.jar搜索。然后将所有jar包拷贝出来。3.除了我们创建工程的jar包之外,还有source包和test包。我们分别创建_source和_test 文件夹,将里面的source包和test包剪切出来。拷贝完成!注:- x...原创 2019-10-24 17:41:42 · 2692 阅读 · 0 评论 -
hadoop的安装及配置(Hadoop学习笔记)
重命名计算机为master$> hostnamectl set-hostname master设置计算机ip在网络上的名称$> vi /etc/hosts#hosts :#自己linux的ip地址 主机名192.168.56.100 master测试:ping 192.168.56.100ping master注意:如果在windows系统上ping通ma...原创 2019-10-16 21:36:31 · 328 阅读 · 0 评论