11.1-大数据
fei20121106
这个作者很懒,什么都没留下…
展开
-
(11.1.4)Hadoop基础教程之分布式环境搭建
前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver)。同时,这台主机,我们就用第一章中搭建好的环境来。我们采用与第一章中相似的步骤来操作:1、运行环境搭建转载 2015-05-27 18:20:36 · 902 阅读 · 0 评论 -
(11.1.3)Hadoop基础教程之HelloWord
上一章中,我们把hadoop下载、安装、运行起来,最后还执行了一个Hello world程序,看到了结果。现在我们就来解读一下这个Hello Word。OK,我们先来看一下当时在命令行里输入的内容:?12345678$mkdir input$cd inpu转载 2015-05-27 16:54:56 · 1179 阅读 · 0 评论 -
(11.1.7)Hadoop基础教程之重新认识Hadoop
之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析。 所以这里主要来研究一下MapReduce。 这样,我们先来看一下MapReduce的思想来转载 2015-05-27 18:30:55 · 983 阅读 · 0 评论 -
(11.1.8)Hadoop基础教程之高级编程
从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤:1.输入(input):将输入数据分成一个个split,并将split进一步拆成。2.映射(map):根据输入的进生处理,3.合并(combiner):合并中间相两同的key值。4.分区(Partition):将分成N分,分别送到下一环节。5.化简(Reduce):将中间结果合并,得转载 2015-05-27 18:30:20 · 759 阅读 · 0 评论 -
(11.1.2)Hadoop基础教程-运行环境搭建
一、Hadoop是什么一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high转载 2015-05-27 16:44:25 · 1125 阅读 · 0 评论 -
(11.1.1)《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术和应用场景有了初步了解。 Hadoop历史 雏形开始于200转载 2015-05-27 16:05:24 · 882 阅读 · 0 评论 -
(11.1.6)Hadoop教程之编写HelloWorld(2)
前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。DFS 是什么,之前已经了解过,它是一个分布式文件存储系统。不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理。同时在第2节的最后, 我们转载 2015-05-27 18:28:37 · 3111 阅读 · 0 评论 -
(11.1.5)Hadoop基础教程之搭建开发环境及编写Hello World
整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA。在linux下开发JAVA还数eclipse方便。1、下载进入官网:http://eclipse.org/downloads/。找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本。2、解压下载下来一般是tar.gz文件,运行:转载 2015-05-27 18:24:41 · 1470 阅读 · 0 评论