hadoop
韩韩的博客
在读学生。座右铭:愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。愿君安。
展开
-
一句话理解hadoop合并和归并的关系
合并是指combiner的过程,combiner是对重复的key合并在一起,减少冗余信息。是对key的操作。 归并是两个有序文件合并成一个有序文件,是对文件的操作。 ...原创 2020-03-15 09:03:48 · 3467 阅读 · 0 评论 -
一句话搞懂hadoop分区分组的不同
分组发生在reducetask阶段,分组是针对同一个区的数据进行分组。分组的目的是为了让不同组的数据进入reduce进行处理。 分区发生在maptask阶段,分区的目的是为了让数据进入哪个reducetask。 ...原创 2020-03-15 08:58:42 · 588 阅读 · 0 评论 -
Hadoop的单词个数统计程序(可复现)
(1)在文件夹下写定一个hello.txt文件。 python hello java python c++ java python php (2)然后编写一个入门级的mapreduce程序。一个mapreduce程序分为Mapper、Reducer、Driver。 本程序使用maven.pom.xml代码如下。 <dependencies> <dependency> ...原创 2020-03-10 22:07:34 · 504 阅读 · 0 评论 -
白话理解Hadoop的NameNode和SecondaryNameNode工作机制
NameNode里的元数据是用来找到DataNode的,但是这些元数据是存储在哪里的呢? 元数据的存储位置无非是存储在内存里或者硬盘里,但是存在硬盘里,主机访问的时候时间太长,放在内存里,会明显提高访问的效率,但是存在内存里也有一个坏处,就是一旦设备断电,内存里的元数据也会消失,所以需要对元数据进行持久化。 元数据持久化有两种方式:一种是fsimage,一种是edit日志。fsimage是edit...原创 2020-03-08 14:25:30 · 242 阅读 · 0 评论 -
Hadoop格式化NameNode可能会出现的问题
本文从原理上讲解格式化NameNode可能会出现的问题。 格式化NameNode的命令 hdfs namenode -format 我们每次格式化namenode之后都会产生一个新的标记namenode的id,而这个id也是在datanode里面有的。这个标记会缓存在你的hadoop的缓存文件里,当你格式化namenode之后,你的datanode的id还在,但是你的namenode的id变化了...原创 2020-02-28 20:27:11 · 2302 阅读 · 1 评论 -
Hadoop Mapreduce分区、分组、二次排序过程一篇文章看懂(结合实例)
1、MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce 2、Mapreduce中Partition...转载 2019-12-22 17:37:20 · 299 阅读 · 0 评论 -
maven的安装及配置(零基础版本)
Maven的介绍及安装: Maven是Apache的顶级项目之一,是一个项目管理工具。 Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。 Maven分为两种: 一种是脱机maven jar仓库,另一种是联网库 Maven的安装: 1.下载maven的压缩包: 官网 2.将压缩包进行解压。 3.配置maven的环境变量: (1)新建M2_HO...原创 2019-11-02 12:04:27 · 396 阅读 · 0 评论 -
在eclipse上面读写hdfs中的文件
准备工作: 1.在创建工程之前,我们需要将hadoop的所有jar准备好。解压之后如图所示。 2.里面jar包非常全面,我们将所有jar包复制出来。在搜索框中输入.jar搜索。然后将所有jar包拷贝出来。 3.除了我们创建工程的jar包之外,还有source包和test包。我们分别创建_source和_test 文件夹,将里面的source包和test包剪切出来。 拷贝完成! 注:- x...原创 2019-10-24 17:41:42 · 2692 阅读 · 0 评论 -
hadoop的安装及配置(Hadoop学习笔记)
重命名计算机为master $> hostnamectl set-hostname master 设置计算机ip在网络上的名称 $> vi /etc/hosts #hosts : #自己linux的ip地址 主机名 192.168.56.100 master 测试: ping 192.168.56.100 ping master 注意:如果在windows系统上ping通ma...原创 2019-10-16 21:36:31 · 328 阅读 · 0 评论