hdfs
chinabinner
这个作者很懒,什么都没留下…
展开
-
hadoop初学习
最近在看hadoop相关的书籍,尝试着写下来我所理解的hadoop. 什么是hadoop呢?一句话可以总结为 适合海量数据的分布式存储和计算平台. 这句话从后往前说,"计算平台"就是mapreduce,"分布式存储"就是HDFS,"海量数据"到底是多少数据呢,听说是PB级别的,"适合"怎么来解释呢,也就是说如果数据是GB级别的,那就没必要使用hadoop了,单机来处理就可以了.原创 2014-02-12 14:20:36 · 534 阅读 · 0 评论 -
hadoop笔记
hadoop 的集群是基于master/slave 模式 namenode 和jobtracker 属于master datanode 和tasktracker 属于slave master 只有一个,而slave 有多个 SecondaryNameNode 内存需求和NameNode 在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和NameN转载 2014-02-12 21:24:56 · 288 阅读 · 0 评论 -
Hadoop与Spark常用配置参数总结
背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资转载 2016-01-11 16:47:00 · 546 阅读 · 0 评论