spring8743-CSDN博客

转载 hadoop2.x常用端口及定义方法

Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFS

2015-01-10 10:28:03 698

原创 hadoop工作流调度oozie安装

1. 下载http://www.cloudera.com/content/cloudera/en/downloads/cdh/cdh-5-1-0.html （oozie-4.0.0+cdh5.1.0+249）2. 解压创建libext, 并把oozie-hadooplibs-4.0.0-cdh5.1.0.tar.gz解压的jar包以及ext-2.2.zip

2015-01-07 14:00:24 502

MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOutputBuffer，即上图的buffer in memory），map会将

2014-11-11 10:38:10 539

原创 hadoop1.2.1+zookeeper3.4.6+hbase0.94集群环境搭建

hadoop集群环境搭建参考前面的hadoop集群搭建文档，搭建了三个服务器的集群如下feixu-master namenode, secondaryNamenode, jobtrackerfeixu-slave1 datanode, tasktrackerfeixu-slave2 datanode, tasktrackerzookeeper集群环境搭建zooKeeper是

2014-11-11 10:38:07 535

原创企业级hadoop集群选型配置

硬件配置处理器： 2个四核2-2.5GHz的CPU内存： 16-24GB存储器：4 * 2TB SATA硬盘（不需要RAID）网络：千兆以太网软件配置操作系统：发型版的64位linux（CentOS, Ubuntu, Redhat）Hadoop版本：免费的有Apache, CDH，付费的有华为，EMC，INTEL的JDK: 64位的jdk， 32最大只能支持3G内存淘宝的hadoop集群规模

2014-11-11 10:38:04 728

原创 virtualbox桥接网络配置--CentOS

系统安装好后如下图设置virtualbox虚拟机的网络连接方式vi /etc/sysconfig/network-scripts/ifcfg-eth0根据主机的网络配置如下重新启动网卡 service network restart 但是ping www.baidu.com发现ping不通，是因为没有配置域名服务器vi /etc/resolv.confnameserver 8.8.8.8 #g

2014-11-11 10:38:01 362

原创 hadoop基础总结

Hadoop的各种基本类型：已经实现的各种Mapper:已经实现的各种Reducer:InputFormat的各种实现类：OutputFormat的各种实现类：Hadoop支持的各种聚合函数：

2014-11-11 10:37:59 372

原创 RDBMS和HDFS, HIVE, HBASE的迁移工具Sqoop

Sqoop 简介Apache Sqoop 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 ( 如 HBase 和 Hive) 中；同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外，Sqoop 也提供了一些诸如查看数据库表等实用的小工具。Sq

2014-11-11 10:37:55 620

原创 Hadoop数据仓库hive的应用

Hive介绍1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系

2014-11-11 10:37:52 1009

原创 Gnuplot图形展示hadoop处理结果

一直苦恼于如何将hadoop处理的结果进行显示，有一些商业图形软件和大数据可以很好的集成如Intellicus，功能很完善图形显示也很漂亮但是目前阶段过于繁琐，而且还是收费的。还有一种是Eclipse的BIRT插件，这个工具比较好用，比较适合正式的项目开发应用。后来偶尔发现一个很好用的小工具Gnuplot,可以在window, linux各种平台上运行的，主要是应用在数学计算中的的画各种函数曲线，

2014-11-11 10:37:49 684

原创 Hadoop的脚本语言Pig应用

Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。从编写mapreduce程序到编译部署通常都很耗费时间，有可能运维人员都不懂mapreduce,在这种情况下可以用轻量级的脚本语言Pig来完成,通过Pig引擎生成分布式的mapreduce

2014-11-11 10:37:47 839

原创大数据云计算的利器hadoop介绍

Hadoop是由ASF(Apache SoftwareFoundation)源于Lucene的子项目Nutch所开发的开源分布式计算平台，可以构建具有高容错性、可伸缩性、低成本、和良好扩展的高效分布式系统，允许用户将Hadoop部署在大量廉价硬件设备所组成的集群上，为应用程序提供一组稳定可靠的接口，充分利用集群的存储和计算能力，完成海量数据的处理。由于Hadoop优势突出，得到了众多企业和个人的青

2014-11-11 10:37:44 810

原创 hadoop实现表连接算法

常见的单表，多表连接可以用SQL很简单的表示出来，但是对于hadoop就有点复杂了，这里简单介绍下如何用hadoop的key/value实现表之间的连接。现在有两张表emp, dept分别显示员工信息和部门信息，需要实现以下的需求1. 求每个部门的总工资2. 求每个部门的平均工资和人数SQL> select * from emp; EMPNO ENAME JOB

2014-11-11 10:37:41 486

原创 Hadoop Definitive Guide --- Chapter 6. How MapReduce Works

在本章中我们看看MapReduce具体工作的细节，可以为后面写更高级的程序打下良好的基础。Anatomy of a MapReduce Job Run你可以通过如下两种方法来运行MapReduce的Job，submit和waitForCompletion,它包括了很多底层处理的细节，接下来我们看看它是怎么工作的。在hadoop0.20和更高的版本上，mapred.job.tracker属性决定了j

2014-11-11 10:37:38 415

原创 MapReduce的单元测试框架MRUnit

最近在写MapReduce程序，写完后再放到hadoop集群上跑，发现不是很方便。然后在window环境上装了eclipse直接写程序远程提交job到hadoop集群上，大大提高了效率。但是mapreduce的单元测试工具还是得要的，有利于程序的调试。Apache官方提供了MRUnit框架用来专门测试MapReduce程序，它是基于Junit框架的。链接如下：http://mrunit.apach

2014-11-11 10:37:35 580

原创 Window平台的eclipse连接linux的hadoop集群

前提条件：之前已经在VM上虚拟了三台linux,并且安装了hadoop集群feixu-master, feixu-slave1, feixu-slave2, feixu-slave3需求：为了开发和调试的方便，因此需要在windows平台上装eclipse来远程连接linux的hadoop集群。正常是模式是在eclipse中开发和调试小的数据集，然后部署到集群上去跑作业。软件版本： hadoop

2014-11-11 10:37:32 714

原创 Hadoop分析NCDC气象数据

气象数据准备：1. 下载1993年到2003年每年的部分气象数据ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/2. 下载的文件格式是*.gz，用zcat命令将其解压并上传到hdfszcat *.gz>1993.txtbin/hadoop fs -put 1993.txt /feixu/input3. 查看hdfs上的气象数据，总大小约1.2G MapReduce代码

2014-11-11 10:37:29 1460

原创 hadoop文件读写示例

1 在Hadoop集群中编译并运行《权威指南》中的例3.2import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import o

2014-11-11 10:37:26 586

原创 Hadoop Definitive Guide --- Chapter 10. Administering Hadoop

HDFS作为管理员，应该对hdfs的各个组件namenode, secendary namenode, datanode是如何在硬盘上组织文件有个基本的了解。namenode directory structure${dfs.name.dir}/└── current/├── VERSION├── edits├── fsimage└── fstime VERSION文件是一个java属性文件，包括

2014-11-11 10:37:23 323

原创 hadoop word count example

1. 运行hadoop-1.2.1自带的wordcount example在$hadoop_home目录生成file01, file02文本文件将file01, file02放到hdfs的某一个目录下bin/hadoop fs -put file01 /user/hadoop/wordcount/inputbin/hadoop fs -put file02 /user/hadoop/wor

2014-11-11 10:37:20 469

原创 Hadoop Definitive Guide --- Chapter 3. The Hadoop Distributed Filesystem

The Design of HDFSHDFS的设计目标是在普通的大规模集群上存储海量的数据。Very large files非常大的文件意味着数百个M,G,T级别的数据，hadoop集群现在能存储PB级别的数据。Streaming data accessHDFS建立在最高效的一次写，多次读的数据处理方式，所以采用流式数据读取。Commodity hardwareHadoop不需要很昂贵的高性能的机

2014-11-11 10:37:18 316

原创 Hadoop Definitive Guide --- Chapter 1. Meet Hadoop

Data我们生活在数据的元年，IDC分析报告指出在2006年现有的数量是0.18zb，到2011年达到1.8zb。Byte --> KB --> MB --> GB --> TB --> PB --> EB --> ZB大量的数据来源于哪里呢？* 纽约的股票交易市场每天产生1tb新的交易数据。* facebook存储了大概一千万的照片，接近1pb的存储空间。* 互联网档案存储了2pb的数据，正在以

2014-11-11 10:37:14 384

原创 Hadoop HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigt

2014-11-11 10:37:12 349

原创 Google Bigtable 论文

Google Bigtable论文： http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/bigtable-osdi06.pdf简介：Bigtable是一个分布式的结构化数据存储系统，可以在上千台普通的机器上存储PB级别的数据。目前在GOOGLE有超过

2014-11-11 10:37:09 742

原创 Hadoop MapReduce工作原理

Map-Reduce的处理过程主要涉及以下四个部分：客户端Client：用于提交Map-reduce任务jobJobTracker：协调整个job的运行，其为一个Java进程，其main class为JobTrackerTaskTracker：运行此job的task，处理input split，其为一个Java进程，其main class为TaskTrackerHDFS：hadoop分布式文件系统

2014-11-11 10:37:06 876

原创 Google MapReduce 论文

Google MapReduce论文： http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/mapreduce-osdi04.pdf1. 介绍MapReduce是用来处理和生成大数据量的一种编程模型。用户指定map函数处理key/value的输入，产生

2014-11-11 10:37:04 785

原创 Hadoop Distributed File System( HDFS)

HDFS是Hadoop Distribute File System 的简称，也就是Hadoop的一个分布式文件系统。分布式文件系统就是管理网络计算机上存储的文件。基于网络存储和分布计算带来的挑战比传统的文件系统更加复杂，例如某个节点失败导致数据丢失的问题。HDFS优点1. 成本很低。运行在普通廉价的服务器上。2. 线性增长。3. 自动数据冗余。HDFS设计思想1. 硬件错误作为一种常态，因此要提

2014-11-11 10:37:01 672

原创 Google GFS 论文

简介：现在云计算渐成潮流，对大规模数据应用、可伸缩、高容错的分布式文件系统的需求日渐增长。Google根据自身的经验打造的这套针对大量廉价客户机的Google GFS文件系统已经广泛的在Google内部进行部署，对于有类似需求的企业而言有相当的参考价值。Google GFS论文： http://static.googleusercontent.com/external_content/untrus

2014-11-11 10:36:58 963

原创 Nutch 2 + HBase + Solr 4集成

1. 安装和编译Nutch从apache官网下载Nutch 2.2.1(apache-nutch-2.2.1-src.tar.gz), 3.7M只包含src文件，没有bin文件。从apache官网下载Ant 1.9.2(apache-ant-1.9.2-bin.tar.gz), 5.3M 是一个自动化的编译，打包，测试工具打开/etc/profile 配置ANT_HOME 和 PATHexpor

2014-11-11 10:36:55 816

原创 Ubuntu Server 12.04 搭建 hadoop 集群版环境——基于VirtualBox

1 . 下载和安装Oracle VM VitualBoxhttp://www.oracle.com/technetwork/server-storage/virtualbox/downloads/index.html (VirtualBox-4.2.6-82870-Win.exe)2. 下载Linux系统Ubuntu Server版本http://www.ubuntu.com/download/

2014-11-11 10:36:52 1091

spring8743的专栏