hadoop
文章平均质量分 75
꧁꫞ND꫞꧂
每一天都值得期待与认证对待
展开
-
大数据中的小文件问题
文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。 操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。"块"的大小,最常见的是4KB,即连续八个 sector组成一个 block。文件数据都储存在"块"中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。...原创 2022-07-26 10:59:49 · 1150 阅读 · 0 评论 -
windows 上安装hadoop环境
在windows上搭建hadoop开发环境下载hadoop:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common点击下面链接进行下载然后进行解压如果解压出现下面的情况则用管理员身份进行解压,cd到压缩包所在文件夹下,执行下面的命令start winrar x -y hadoop-3.1.3.tar.gz解压完后,bin里面还缺少了winutils.exe和hadoop.dll需要额外下载..转载 2020-11-05 14:19:59 · 253 阅读 · 1 评论 -
YRAN调优
YRAN调优有三个方面 1. 群集配置,配置各主机 2. YARN配置,配置内存和CPU资源 MapReduce配置,为每个map和reduce任务分配最大和最小资源 二、Yarn工作节点配置优化方案 参考cloudera yarn-tuning-guide 工作节点配置如下: 工作节点内存和CPU规划 ARN NodeManager资源设置如下参数(这两个参数是NodeManager能分配的最大内存和最大cpu)yarn.nodemanager.resou原创 2020-08-12 14:17:35 · 254 阅读 · 0 评论 -
Hadoop-QJM原理
一.背景在QJM出现之前,为保障集群的HA,设计的是一种基于NAS的共享存储机制,即主备NameNode间通过NAS进行元数据的同步。该方案有什么缺点呢,主要有以下几点:定制化硬件设备:必须是支持NAS的设备才能满足需求 复杂化部署过程:在部署好NameNode后,还必须额外配置NFS挂载、定制隔离脚本,部署易出错 简陋化NFS客户端:Bug多,部署配置易出错,导致HA不可用所以对于...转载 2019-12-31 14:01:47 · 745 阅读 · 0 评论 -
MR的inputFormat总结
inputFormathadoop虽然内置了很多个inputFormat但是,有时候还是不满足我们的一些需求,所以我们需要重写一个类,来实现我们对数据的读取。例如WC我们制定几行一起读取:所有InputFormat都要直接或间接的继承InputFormat抽象类。 InputFormat接 口中主要定义了如下两个方法: /** 生产InputSplit集合的方法 ...原创 2018-08-31 11:56:06 · 1220 阅读 · 0 评论 -
18年的开发总结
个人总结如果在运行spark的时候,有时候环境的问题需要引入其他的jar包,那么我们可以使用--driver-class-path $HBASE_HOME/lib/*:classpath也可以以在脚本前面执行export ****生成当前需要的环境当前我们集群使用的版本 jdk1.8 spark2.11 hive2.1.1 hbase1.3.0 hadoop2.7.3 zookeeper3....原创 2019-03-07 16:56:29 · 168 阅读 · 0 评论