![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
星月的雨
这个作者很懒,什么都没留下…
展开
-
hadoop3.0新特性
1.纠删码将数据存储空间节省50%hadoop-3.0之前,HDFS存储方式为每一份数据存储3份,这也使得存储利用率仅为1/3,hadoop-3.0引入纠删码技术(EC技术),实现1份数据+0.5份冗余校验数据存储方式2.Shell脚本重写 (1)增加了参数冲突检测,避免重复定义和冗余参数(2)CLASSPATH, JAVA_LIBRARY_PATH, and LD_LIBRA转载 2017-12-17 15:22:15 · 1064 阅读 · 0 评论 -
Yarn 总结
Yarn运行机制客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例ResourceManager找到可以运行一个Container的NodeManager,并在这个Container中启动ApplicationMaster实例ApplicationMaster向ResourceManager进行注册,注册之后客户端就可原创 2018-01-20 11:36:45 · 236 阅读 · 0 评论 -
HDFS文件系统总结
HDFS默认快大小128MHDFS小于一个块大小的文件不会占据整个块空间对文件系统块检查:hdfs fsck / -files -blocksnamenode namenode管理文件系统的命名空间,维护者文件系统及整颗树内所有文件和目录,这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件,也记录着每个文件各个块所在的数据节点信息namenode容原创 2018-01-18 23:42:59 · 383 阅读 · 0 评论 -
HDFS常用API
URL读取数据InputStream in = null;try { in = new URL("hdfs://hadoop:9000/input/text1.txt").openStream(); IOUtils.copyBytes(in, System.out, 4096, false);}finally{ IOUtils.closeStream(in);}FIleSy原创 2018-01-18 23:56:15 · 2119 阅读 · 0 评论 -
Hadoop总结
数据流Hadoop将MapReduce的输入数据划分成等长小数据块,称为数据分片,Hadoop为每个分片分配一个map分片一个合理的分片大小趋向一个hdfs快大小,默认128M,可以调整整个集群默认值,也可以在任务创建时指定Hadoop在存储有输入数据(hdfs中的数据)的节点上运行map任务,可以获得最佳性能,所谓“数据本地化”map任务将其输出写入硬盘reduce任务不具备数据本地化优势如果有原创 2018-01-18 23:10:46 · 241 阅读 · 0 评论 -
MapReduce的类型和格式
MapReduce的类型Context类对象用于输出键-值对map: (k1, v1) -> list(k2, v2)combiner: (k2, list(v2)) -> list(k2, v2)reduce: (k2, list(v2)) -> list(k3, v3)partition函数对中间结果的键值对 (k2 , v2)进行处理,并返回一个分区索引原创 2018-01-23 23:03:17 · 489 阅读 · 0 评论 -
MapReduce工作机制
作业提交创建一个job实例向ResourceManage请求一个新应用ID将运行所需要的资源复制到一个以作业ID命令的目录下的共享文件系统中通过ResourceManage的submitApplication()方法提交作作业初始化将提交的作业请求传递给Yarn调度器,调度器分配一个容器,资源管理器在节点管理器的管理下,在容器中启动application Maste原创 2018-01-23 21:30:23 · 250 阅读 · 0 评论 -
MapReduce应用开发
用于配置的API Configuration conf = new Configuration(); conf.addResource("configuration-1.xml"); conf.addResource("configuration-2.xml");辅助类GenericOptionsParser,Tool,ToolRunnerGenericO原创 2018-01-22 22:51:11 · 306 阅读 · 0 评论 -
Hadoop I/O操作
数据完整性客户端从datanode读取数据时,会验证校验和每个datanode也会在后台线程中运行一个DataBlockScanner,从而定期验证存储在这个datanode中的所有数据块由于Hdfs存储每个数据块的复本,可以通过复本来修复受损的数据块压缩压缩两大好处: 1.减少存储文件所需要的磁盘空间2.加速数据在网络和磁盘上的传输通常使用gzip进行压缩原创 2018-01-20 12:46:13 · 292 阅读 · 0 评论 -
YARN参数详解
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yar转载 2017-12-17 15:24:43 · 4033 阅读 · 0 评论 -
配置secondarynamenode
secondary namenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器名修改/添加 hdfs-site.xml中如下属性:dfs.http.ad转载 2017-12-17 15:24:01 · 590 阅读 · 0 评论 -
MapReduce的特性
计数器计数器是手机作业统计信息的有效手段之一,用于质量控制或应用级统计,计数器还可以辅助诊断系统故障内置计数器Hadoop为每个作业维护若干内置计数器,如处理的字节数,和记录数计数器分组MapReduce任务计数器TaskCount文件系统计数器FileSystemCounterFileInputFormatFileI原创 2018-01-29 22:10:39 · 1449 阅读 · 0 评论