![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 59
低头敲代码
代码还没写完,玩啥手机!
展开
-
Hadoop伪分布式集群安装
我们此次安装是在Linux环境,Linux的一些安装操作和网络配置这里就不多讲了,这里默认Linux是可以和win主机ping通的。 一.安装JDK 1.上传压缩包 上传jdk的压缩包并进行解压,最好解压到新建的目录下; tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/local/java ...原创 2018-10-29 09:47:29 · 333 阅读 · 0 评论 -
Hadoop之HDFS(一)
数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统;是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 分布式文件管理系统很多,hdfs只是其中一种。适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。...原创 2018-11-19 14:21:51 · 192 阅读 · 0 评论 -
HDFS上传文件大小为0问题
问题: 在win主机上使用api向Linux的Hadoop集群上传文件时报错: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /wc/indata/data1.txt could only be replicated to 0 nodes instead of minReplication (=1). Th...原创 2018-11-20 19:29:43 · 3778 阅读 · 0 评论 -
HDFS的DataNode启动了又频繁退出问题
问题: 使用命令脚本启动hadoop之后,用jps命令查看节点进程发现有DataNode进程,但是一段时间之后就不见了,就是DataNode进 程异常,由于某种原因导致无法启动或者启动后数据节点DataNode进程自动关闭。 解决: 1.查看DataNode节点日志(注意如果没有配置hadoop日志路径默认在$HADOOP_INSTALL/logs目录下,也就是安装目录的 ...原创 2018-11-20 19:47:59 · 1240 阅读 · 0 评论 -
HDFS之Could not locate executable null\bin\winutils.exe in the Hadoop binaries.的问题
问题: 使用hadoop客户端上传文件时,报错: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 是由于缺少winutils.exe程序; 解决: 1.下载winutils,然后进行解压; 地址:https://github.com/srccodes/had...原创 2018-11-20 20:03:04 · 754 阅读 · 0 评论 -
Hadoop之MapReduce
概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 原理 先执行map,然后再执行reduce,map先做局部处理,然后再由reduce进行汇总,这里的map会分散...原创 2019-01-24 14:15:56 · 233 阅读 · 0 评论 -
MapReduce之job提交逻辑及YARN框架技术机制
之前我们在Hadoop伪分布集群运用MapReduce时,分别在map和reduce写了自己的业务数据处理逻辑,然后把java代码打包 成一个jar丢到集群中去运行,那么在hadoop -jar命令执行的时候,job是怎么提交的呢?以及YARN框架在这过程是怎么工作的 呢?下面我们来分析一下。 简单介绍一下YARN框架: 1.YARN框架主要作用是资源调度; ...原创 2019-01-24 14:16:15 · 154 阅读 · 0 评论 -
MapReduce之shuffle机制
切片—split机制 1.切片是一个逻辑概念,指的是文件中数据的偏移量范围; 2.map task的并发数是由切片数量决定的,有多少个切片就有多少个map task; 3.切片的具体大小应该根据文件大小来调整; 4.切片的最佳大小是等于文件块(block)的大小 shuffle机制 shuffle过程其实就是mrappmaster的任务监控...原创 2019-01-24 14:16:28 · 203 阅读 · 0 评论