Hadoop
文章平均质量分 85
GarfieldEr007
这个作者很懒,什么都没留下…
展开
-
Hadoop集群搭建
前置条件:1、三台机器,这里通过创建三个VMware虚拟机来模拟三台物理机器2、Linux系统,例如Ubuntu、CentOS、Fedora等,这里是Ubuntu10.043、jdk for linux版本,这里是jdk-6u25-linux-i586.bin4、hadoop0.20.1.tar.gz文件一、安装Linux系统$sudo apt-get update原创 2014-08-11 14:33:47 · 2258 阅读 · 0 评论 -
MapReduce编程基础
MapReduce编程基础1. WordCount示例及MapReduce程序框架2. MapReduce程序执行流程3. 深入学习MapReduce编程(1)4. 参考资料及代码下载 . WordCount示例及MapReduce程序框架 首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduc转载 2015-10-30 21:44:38 · 1345 阅读 · 0 评论 -
Eclipse安装Hadoop插件配置Hadoop开发环境
一、下载Hadoop插件注意:Hadoop插件要跟自己安装的Hadoop版本相对应。这儿有一个Hadoop 2.X版本对应的Hadoop插件,前往下载, 下载hadoop2x-eclipse-plugin.zip。解压后,release文件夹下的hadoop.eclipse-kepler-plugin-2.2.0.jar即为我们所需要的插件。二、放置插件并重启Eclipse原创 2015-11-17 13:07:34 · 4620 阅读 · 0 评论 -
一步步教你Hadoop多节点集群安装配置
一步步教你Hadoop多节点集群安装配置1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构转载 2015-11-17 07:57:55 · 7319 阅读 · 1 评论 -
Hadoop自带WordCount.java程序
位置:{Hadoop_HOME}\hadoop-0.20.1\src\examples\org\apache\hadoop\examples\WordCount.javaHadoop自带WordCount程序:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTok原创 2015-11-24 11:07:47 · 3529 阅读 · 0 评论 -
Hadoop教程(三):HDFS、MapReduce、程序入门实践
Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。 你知道吗? 当数据超过一个单个物理机器上存储的容量,除以跨独立机器数。管理跨越机器的网络存储特定操作被称为分布式文件系统。HDFS集群主要由转载 2015-12-11 12:57:35 · 5037 阅读 · 0 评论 -
Hadoop教程(四):理解MapReduce、MapReduce计数器和连接、MapReduce Hadoop程序连接数据
本教程中的代码分为 3 个部分:解释 SalesMapper 类解释 SalesCountryReducer 类解释 SalesCountryDriver 类SalesMapper类的说明在本节中,我们将了解 SalesMapper 类的实现。我们首先指定类的包名称。 SalesCountry 就是这个示例中使用的包名。请注意编译的输出,SalesMapper.转载 2015-12-11 13:00:27 · 1982 阅读 · 0 评论 -
Hadoop教程(五):Flume、Sqoop、Pig、Hive、OOZIE
在我们了解Flume和Sqoop之前,让我们研究数据加载到Hadoop的问题:使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。主要问题:1. 使用脚本加载数据传统的使用脚转载 2015-12-11 13:03:12 · 4401 阅读 · 0 评论 -
Hadoop教程(二):安装
本教程是以Ubuntu 系统作为安装讲解环境,为了减少不必要的麻烦,请您 安装Ubuntu 并能正常启动进入系统。同时也必须要 安装Java。一、添加 Hadoop 系统用户组和用户使用以下命令在终端中执行以下命令来先创建一个用户组:yiibai@ubuntu:~$ sudo addgroup hadoop_操作结果如下:使用以下命令来添加用户:yiibai@u转载 2015-12-11 12:53:07 · 1523 阅读 · 0 评论 -
Hadoop教程(一):简介、大数据解决方案、介绍快速入门
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以转载 2015-12-11 12:51:33 · 7728 阅读 · 1 评论 -
急性子的开源大数据,第 1 部分: Hadoop 教程:Hello World 与 Java、Pig、Hive、Flume、Fuse、Oozie,以及 Sqoop 与 Informix、DB2 和
如何开始使用 Hadoop 和自己喜欢的数据库本文的重点是解释大数据,然后在 Hadoop 中提供简单的工作示例,Hadoop 是在大数据领域的主要开源选手。您会很高兴地听到,Hadoop 并不是 Informix® 或 DB2® 的替代品,但事实上与现有的基础架构配合得很好。Hadoop 家族有多个组件,本文将深入探讨演示各功能的具体代码示例。如果您在自己的 PC 上尝试转载 2015-11-25 15:29:30 · 2945 阅读 · 0 评论 -
Hadoop Streaming
Hadoop StreamingHadoop Streaming Hadoop Streaming Streaming工作原理 将文件打包到提交的作业中 Streaming选项与用法 只使用Mapper的作业 为作业指定其他插件 Hadoop Streaming中的大文件和档案转载 2015-11-25 14:57:47 · 1139 阅读 · 0 评论 -
Hadoop命令手册
Hadoop命令手册 概述 常规选项 用户命令 archive distcp fs fsck jar job pipes version CLASSNAME 管理命令转载 2015-11-25 14:46:09 · 1040 阅读 · 0 评论 -
Hadoop Shell命令
Hadoop Shell命令FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir转载 2015-11-25 14:47:31 · 979 阅读 · 0 评论 -
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程 目的 先决条件 概述 输入与输出 例子:WordCount v1.0 源代码 用法 解释 Map/Reduce - 用户界面 核心功能描述 Mapper Reducer转载 2015-11-25 14:56:09 · 1671 阅读 · 0 评论 -
Apache Mahout 简介
Apache Mahout 简介通过可伸缩、商业友好的机器学习来构建智能应用程序当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。转载 2015-12-03 08:44:05 · 1059 阅读 · 0 评论 -
Mahout推荐算法API详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍 算法评判标准:召回率与准确率 Recommender.java的A转载 2015-12-03 08:44:16 · 1597 阅读 · 0 评论 -
Hadoop的那些事儿
一台单机在存储容量、并发性上毫无疑问都是有很大限制的。为了解决单机无法完成的大存储(>1TB)和大规模计算,分布式系统就应运而生了。MapReduceMapReduce计算框架适用于超大规模的数据(100TB量级)且各数据之间相关性较低的情况。MapReduce的思想是由Google的论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。转载 2016-03-15 19:02:24 · 1486 阅读 · 0 评论 -
Hadoop+eclipse运行MapReduce程序
前面,我们已经通过eclipse下安装Hadoop的插件配置好了基于Hadoop+eclipse的MapReduce开发环境。现在,我们在这个Hadoop+eclipse环境下运行MapReduce程序。一、新建MapReduce项目【 File】—>【new】->【Project】,选择【Map/Reduce Project】,单击下一步,设置项目名称为WordCount,确定。原创 2015-11-24 12:04:35 · 1500 阅读 · 0 评论 -
Hadoop之WordCount源代码
一、旧版WordCount源代码//package org.apache.hadoop.examples;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.had原创 2015-11-18 11:36:39 · 2679 阅读 · 0 评论 -
Hadoop MapReduce程序的模板框架
这里放了两个Hadoop MapReduce程序的模板框架,包括一些基本的包import语句、Mapper基类、Reducer基类、map()方法、reduce()方法,后面还有一些作业job的驱动程序,具体说是配置作业名、配置Mapper类、Reducer类、Combiner类的类名等等。一、/* * MapReduce程序模板,一些必要的语句 * 写MR程序时,复制该文件,修改类名原创 2016-03-16 18:14:26 · 2131 阅读 · 0 评论 -
Hadoop学习笔记—4.初识MapReduce
一、神马是高大上的MapReduceMapReduce是Google的一项重要技术,它首先是一个 编程模型 ,用以进行大数据量的计算。对于大 数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行 计算的编程模型,它使得那些没有多有多少并行计算经验的开发人员也可以开发并行应用程序。这也就是MapReduc转载 2016-03-16 21:02:29 · 1336 阅读 · 0 评论 -
Hadoop学习笔记系列文章导航
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储转载 2016-03-16 21:04:43 · 971 阅读 · 0 评论 -
Hadoop集群(第6期)_WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;转载 2016-03-16 21:11:16 · 873 阅读 · 0 评论 -
Hadoop官网的一个WordCount程序
下面是Hadoop官网的一个WordCount程序:package org.myorg;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.Path;import org.apache.hadoop.conf.*;import org.apache.hadoop.io.*;impor转载 2016-03-16 21:15:34 · 1037 阅读 · 0 评论 -
Hadoop MapReduce模块 Module 4: MapReduce
Previous module | Table of contents | Next moduleIntroductionMapReduce is a programming model designed for processing large volumes of data in parallel by dividing the work into a set of转载 2016-03-16 21:20:24 · 1222 阅读 · 0 评论 -
Hadoop - MapReduce
MapReduce is a framework using which we can write applications to process huge amounts of data, in parallel, on large clusters of commodity hardware in a reliable manner.What is MapReduce?MapReduc转载 2016-03-16 21:22:06 · 946 阅读 · 0 评论 -
在20分钟内写出第一个MapReduce程序Write your first MapReduce program in 20 minutes
The slow revolutionSome revolutions are marked by a single, spectacular event: the storming of the Bastille during the French Revolution, or the destruction of the towers of the World Trade Center o转载 2016-03-16 21:25:56 · 1049 阅读 · 0 评论 -
Yahoo! Hadoop Module 1: Tutorial Introduction
Module 1: Tutorial IntroductionPrevious module | Table of contents | Next moduleIntroductionWelcome to the Yahoo! Hadoop tutorial! This series of tutorial documents will walk you thr转载 2016-03-16 21:30:57 · 1135 阅读 · 0 评论 -
Yahoo! Hadoop Module 2: The Hadoop Distributed File System
Module 2: The Hadoop Distributed File SystemPrevious module | Table of contents | Next moduleIntroductionHDFS, the Hadoop Distributed File System, is a distributed file system designed转载 2016-03-16 21:32:03 · 1599 阅读 · 0 评论 -
Yahoo! Hadoop Module 3: Getting Started With Hadoop
Module 3: Getting Started With HadoopPrevious module | Table of contents | Next moduleIntroductionHadoop is an open source implementation of the MapReduce platform and distributed fi转载 2016-03-16 21:33:12 · 1151 阅读 · 0 评论 -
Yahoo! Hadoop Module 5: Advanced MapReduce Features
Module 5: Advanced MapReduce FeaturesPrevious module | Table of contents | Next moduleIntroductionIn Module 4 you learned the basics of programming with Hadoop MapReduce. That module转载 2016-03-16 21:34:07 · 1347 阅读 · 0 评论 -
Yahoo! Hadoop Module 6: Related Topics
Module 6: Related TopicsPrevious module | Table of contents | Next moduleIntroductionHadoop by itself allows you to store and process very large volumes of data. However, building a转载 2016-03-16 21:34:56 · 1011 阅读 · 0 评论 -
Yahoo Hadoop Module 7: Managing a Hadoop Cluster
Module 7: Managing a Hadoop ClusterPrevious module | Table of contents | Next moduleIntroductionHadoop can be deployed on a variety of scales. The requirements at each of these will转载 2016-03-16 21:35:55 · 1224 阅读 · 0 评论 -
Yahoo Hadoop Module 8: PigTutorial
Module 8: PigTutorialPrevious module | Table of contents | Next moduleIntroductionThe Pig tutorial shows you how to run two Pig scripts in Local mode and Hadoop mode.Local Mode:转载 2016-03-16 21:36:43 · 930 阅读 · 0 评论 -
MapReduce任务分析与讨论MapReduce job explained
In the last post we saw how to run a MapReduce job on Hadoop. Now we're going to analyze how a MapReduce program works. And, if you don't know what MapReduce is, the short answer is "MapReduce is a转载 2016-03-17 12:58:56 · 914 阅读 · 0 评论 -
为Hadoop创建JAR包文件Creating a JAR for Hadoop
We've seen the internals of MapReduce in the last post. Now we can make a little change to the WordCount and create a JAR for being executed by Hadoop. If we look at the result of the WordCount we转载 2016-03-17 12:59:42 · 947 阅读 · 0 评论 -
MapReduce模式MapReduce patterns
After having modified and run a job in the last post, we can now examine which are the most frequent patterns we encounter in MapReduce programming. Although there are many of them, I think that t转载 2016-03-17 13:00:23 · 914 阅读 · 0 评论 -
Top N的MapReduce程序MapReduce for Top N items
In this post we'll see how to count the top-n items of a dataset; we'll again use the flatland book we used in a previous post: in that example we used the WordCount program to count the occurrences转载 2016-03-17 13:00:56 · 1191 阅读 · 0 评论 -
Top N之MapReduce程序加强版Enhanced MapReduce for Top N items
In the last post we saw how to write a MapReduce program for finding the top-n items of a dataset. The code in the mapper emits a pair key-value for every word found, passing the word as the key转载 2016-03-17 13:01:37 · 935 阅读 · 0 评论