大数据
韩韩的博客
在读学生。座右铭:愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。愿君安。
展开
-
一句话理解hadoop合并和归并的关系
合并是指combiner的过程,combiner是对重复的key合并在一起,减少冗余信息。是对key的操作。归并是两个有序文件合并成一个有序文件,是对文件的操作。...原创 2020-03-15 09:03:48 · 3467 阅读 · 0 评论 -
一句话搞懂hadoop分区分组的不同
分组发生在reducetask阶段,分组是针对同一个区的数据进行分组。分组的目的是为了让不同组的数据进入reduce进行处理。分区发生在maptask阶段,分区的目的是为了让数据进入哪个reducetask。...原创 2020-03-15 08:58:42 · 588 阅读 · 0 评论 -
Hadoop中shuffle的详细过程
hadoop的shuffle详细过程如下:(1)从maptask中收集我们的map方法输出的kv数据对,放到内存缓冲区中(2)从内存缓冲区不断溢出本地磁盘文件,但是由于内存缓冲区的大小,可能会多次溢出,也就会溢出多个文件。(3)多个溢出文件会被合并成大的溢出文件。(4)在溢出过程和合并过程中,都要调用Partitioner进行分区和针对key进行排序。(5)ReduceTask根据自己的...原创 2020-03-14 07:58:15 · 1089 阅读 · 0 评论 -
hadoop集群关机shell脚本
该shell脚本仅学习使用,在网络中运行有可能有泄露密码的风险。#!/usr/bin/env bashssh -t hadoop201 "echo \"123456\" | sudo -S shutdown -h now"ssh -t hadoop202 "echo \"123456\" | sudo -S shutdown -h now"ssh -t hadoop203 "echo \...原创 2020-03-05 22:24:14 · 653 阅读 · 0 评论 -
Hadoop运行环境搭建(本地模式)
1.在/opt目录下创建文件夹(1)在/opt目录下创建module、software文件夹,module文件夹是放解压出来的软件,software是原压缩包。$ sudo mkdir module$ sudo mkdir software(2)修改module、software文件夹的所有者sudo chown centos:centos module/ software/2....原创 2020-03-03 21:33:12 · 193 阅读 · 0 评论 -
大数据技术生态体系
图中涉及的技术名词解释如下:1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚...原创 2020-03-02 22:07:41 · 443 阅读 · 0 评论 -
Hadoop格式化NameNode可能会出现的问题
本文从原理上讲解格式化NameNode可能会出现的问题。格式化NameNode的命令hdfs namenode -format我们每次格式化namenode之后都会产生一个新的标记namenode的id,而这个id也是在datanode里面有的。这个标记会缓存在你的hadoop的缓存文件里,当你格式化namenode之后,你的datanode的id还在,但是你的namenode的id变化了...原创 2020-02-28 20:27:11 · 2302 阅读 · 1 评论