hadoop
宿命与相关
这个作者很懒,什么都没留下…
展开
-
Hadoop学习笔记(1)
运行环境搭建首先,这个是需要运行在linux系统中的,所以得安装个linux才行,市面上有很多个linux的版本,如红帽子、Fedra、Ubuntu。选哪种呢,对我这种习惯windows的来说,当然要使用方便的,所以选择了Ubuntu。安装Ubuntu,这里我就不多说了,在官网上有很多,其实也很简单,一路下一步。当然这里可以安装在Vmware虚拟机上,也可以直接安装在硬盘上。转载 2017-05-12 10:30:55 · 324 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2017-08-22 16:06:58 · 392 阅读 · 0 评论 -
hadoop2.5 集群
1.现在的虚拟机集合192.168.137.2 node1192.168.137.3 node2192.168.137.4 node3192.168.137.5 node42.配置ssh免密码登录在node1,2,3,4上都运行下面两行:[plain] view plain copyssh-keygen -t ds转载 2017-08-20 23:12:47 · 460 阅读 · 0 评论 -
Hadoop 2.7.2 CentOS x64 环境搭建
一、环境配置1.CentOS[root@master hadoop-2.7.2]# cat /etc/redhat-releaseCentOS Linux release 7.1.1503 (Core) [root@master hadoop]# uname -r3.10.0-229.20.1.el7.x86_642.JDK(jdk8u51)[root@master转载 2017-06-24 18:26:49 · 1645 阅读 · 0 评论 -
Google File System Google Map Reduce Google BigTable 论文
Google File System 翻译 http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdf Google Map Reduce 翻译 http://blog.bizcloudsoft.com/wp-content/uploads/Googl转载 2017-05-19 09:55:31 · 848 阅读 · 0 评论 -
CentOS 6.5中Hadoop 2.7.2安装配置
1. 下载资源最新版JDK 1.8.0_92最新版Hadoop安装包2. 配置环境2.1 JDK2.1.1 安装我们下载的是rpm包,所以这里直接安装:rpm -ivh jdk1.8.0_92.rpm2.1.2 环境变量配置修改/etc/profile文件,也可以修改其他影响环境变量的文件export JAVA_HOME=/usr转载 2017-05-10 11:46:49 · 487 阅读 · 0 评论 -
MapReduce:超大机群上的简单数据处理
MapReduce:超大机群上的简单数据处理 摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这转载 2017-05-17 11:37:32 · 402 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明core-site.xml、hdfs-site.xml、mapred-site.xml
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,h转载 2017-05-13 20:33:48 · 1131 阅读 · 0 评论 -
Hadoop学习笔记(10)
上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了。但是看代码用什么,难不成gedit?,单步调试呢? 看程序不能调那多痛苦啊,想看跟踪一下变量,想看一下执行路径都难。所以这里,我们得把这个调试环境搭建起来。Hadoop的主要代码是用java编写的,所以这里就选用eclipse作为环境。Hadoop目录下,本身就可以为作ecli转载 2017-05-12 10:37:53 · 302 阅读 · 0 评论 -
Hadoop学习笔记(9)
之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例。接下来其实就有两条路可走了,一条是继续深入研究其编程及部署等,让其功能使用的淋漓尽致。二是停下来,先看看其源码,研究下如何实现的。在这里我就选择第二条路。研究源码,那我们就来先看一下整个目录里有点啥:这个是刚下完代码后,目录列表中的内容。转载 2017-05-12 10:35:51 · 451 阅读 · 0 评论 -
Hadoop学习笔记(8)
倒排索引是文档检索系统中最常用数据结构。根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index)。结构如下:这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数。现在我们假定输入的是以下的文件清单:T1 : hello world hello chinaT2 :转载 2017-05-12 10:35:24 · 343 阅读 · 0 评论 -
Hadoop学习笔记(7)
从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤:1.输入(input):将输入数据分成一个个split,并将split进一步拆成。2.映射(map):根据输入的进生处理,3.合并(combiner):合并中间相两同的key值。4.分区(Partition):将分成N分,分别送到下一环节。5.化简(Reduce):将中间结果合并,得转载 2017-05-12 10:34:45 · 239 阅读 · 0 评论 -
Hadoop学习笔记(6)
之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析。 所以这里主要来研究一下MapReduce。 这样,我们先来看一下MapReduce的思想来转载 2017-05-12 10:34:19 · 332 阅读 · 0 评论 -
Hadoop学习笔记(5)
前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。DFS是什么,之前已经了解过,它是一个分布式文件存储系统。不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理。同时在第2节的最后,我们列出转载 2017-05-12 10:33:33 · 295 阅读 · 0 评论 -
Hadoop学习笔记(4)
整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA。在linux下开发JAVA还数eclipse方便。下载进入官网:http://eclipse.org/downloads/。找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本。 解压下载下来一般是tar.g转载 2017-05-12 10:32:41 · 291 阅读 · 0 评论 -
Hadoop学习笔记(3)
运行环境搭建在前面,我们知道,运行hadoop是在linux上运行的。所以我们单机就在ubuntu上运行着。所以同样,2台从机,同样采用linux系统。为了节省资源,本人试验时用了2台centOS系统,而且是采用命令行的方式,没有用图形方式。系统中软件准备,第一章中我们准备了subversion ssh ant 和jdk。那在这里,从机上我们不要这么多了,我们不用再下载、编译代转载 2017-05-12 10:32:10 · 395 阅读 · 0 评论 -
Hadoop学习笔记(2)
OK,我们先来看一下当时在命令行里输入的内容:$mkdir input$cd input$echo "hello world">test1.txt$echo "hello hadoop">test2.txt$cd ..$bin/hadoop dfs -put input in$bin/hadoop jar build/hadoop-0.2转载 2017-05-12 10:31:43 · 362 阅读 · 0 评论 -
Hive配置与操作实践
安装hivehive的安装十分简单,只需要在一台服务器上部署即可。上传hive安装包,解压缩,将其配入环境变量。mysql的设置在要作为元数据库的mysql服务器上建立hive数据库:#建立数据库create database if not exists hive;#设置远程登录的权限GRANT ALL PRIVILEGES ON *.* TO 'roo转载 2017-08-26 23:21:10 · 395 阅读 · 0 评论