![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
iteye_871
这个作者很懒,什么都没留下…
展开
-
hadoop学习笔记<一>----hadoop简介
什么是hadoop? hadoop 是一个可编程和运行分布式应用,用来处理大数据的开源框架。 Hadoop主要子项目 Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common HDFS: Hadoop 分布...原创 2012-11-19 22:47:59 · 109 阅读 · 0 评论 -
hadoop学习笔记<二>----hadoop集群环境的配置
主要步骤请参考 http://dngood.blog.51cto.com/446195/775368。里边的步骤都比较详细(也就是如何去配置hadoop环境 ,即 how)。 这里我着重记录下为什么要这样做(也就是why) 操作系统环境: linux (GNU/Linux是hadoop产品开发和运行的平台。) 完全分布式模式只能布置在linux下(unix未测试,had...2012-11-26 20:01:56 · 118 阅读 · 0 评论 -
eclipse 连接hadoop
由于我用的hadoop是1.0.4,网上大部分教程都是0.2.0的,有一些地方不能借鉴。 eclipse的hadoop的插件可以从网上下载,或者自己从下载的hadoop包里边编译而来(具体方法搜下即可)。拿到插件后放到eclipse安装目录下的plugins目录下即可。然后重启eclipse。 用eclipse建立 DFS Locations后,发现不能连接到HDFS。仔细...2012-12-05 22:03:05 · 119 阅读 · 0 评论 -
hadoop学习笔记<三>----HDFS
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。1. 特性:1.1. 大数据集运行在HDFS上的应用具有很大的数据集。可以是从GB到TB级的。1.2. 高容错性在hadoop集群环境下,每份数据都被保存在多个结点里边。一个结点的不可用不会导致该结点存储的数据不可用。1.3. 高吞吐量跑在H...原创 2012-12-10 23:03:43 · 95 阅读 · 0 评论 -
hadoop学习笔记<四>----map-reduce工作原理
MapReduce的作业(job)是由客户端提交给Hadoop集群的。一个job包括了输入数据,MapReduce程序和配置信息。Hadoop将作业非为若干个任务(task)来执行,其中包括map任务和reduce任务。 有两类节点和task的执行相关,一类是jobtracker,另外一类是tasktracker。 jobtracker通过调度tasktracker...原创 2013-01-14 23:23:21 · 249 阅读 · 0 评论