自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 hadoop2.x常用端口及定义方法

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFS

2015-01-10 10:28:03 681

原创 hadoop工作流调度oozie安装

1. 下载http://www.cloudera.com/content/cloudera/en/downloads/cdh/cdh-5-1-0.html  (oozie-4.0.0+cdh5.1.0+249)2. 解压创建libext, 并把oozie-hadooplibs-4.0.0-cdh5.1.0.tar.gz解压的jar包以及ext-2.2.zip

2015-01-07 14:00:24 492

原创 Hadoop性能参数调优

MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuffer,即上图的buffer in memory),map会将

2014-11-11 10:38:10 533

原创 hadoop1.2.1+zookeeper3.4.6+hbase0.94集群环境搭建

hadoop集群环境搭建参考前面的hadoop集群搭建文档,搭建了三个服务器的集群如下feixu-master     namenode, secondaryNamenode, jobtrackerfeixu-slave1     datanode, tasktrackerfeixu-slave2     datanode, tasktrackerzookeeper集群环境搭建zooKeeper是

2014-11-11 10:38:07 526

原创 企业级hadoop集群选型配置

硬件配置处理器: 2个四核2-2.5GHz的CPU内存: 16-24GB存储器:4 * 2TB SATA硬盘(不需要RAID)网络: 千兆以太网软件配置操作系统: 发型版的64位linux(CentOS, Ubuntu, Redhat)Hadoop版本: 免费的有Apache, CDH,付费的有华为,EMC,INTEL的JDK: 64位的jdk, 32最大只能支持3G内存淘宝的hadoop集群规模

2014-11-11 10:38:04 718

原创 virtualbox桥接网络配置--CentOS

系统安装好后如下图设置virtualbox虚拟机的网络连接方式vi /etc/sysconfig/network-scripts/ifcfg-eth0根据主机的网络配置如下重新启动网卡 service network restart  但是ping www.baidu.com发现ping不通,是因为没有配置域名服务器vi /etc/resolv.confnameserver 8.8.8.8  #g

2014-11-11 10:38:01 344

原创 hadoop基础总结

Hadoop的各种基本类型: 已经实现的各种Mapper:已经实现的各种Reducer:InputFormat的各种实现类:OutputFormat的各种实现类:Hadoop支持的各种聚合函数:

2014-11-11 10:37:59 365

原创 RDBMS和HDFS, HIVE, HBASE的迁移工具Sqoop

Sqoop 简介Apache Sqoop 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 ( 如 HBase 和 Hive) 中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。Sq

2014-11-11 10:37:55 610

原创 Hadoop数据仓库hive的应用

Hive介绍1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系

2014-11-11 10:37:52 994

原创 Gnuplot图形展示hadoop处理结果

一直苦恼于如何将hadoop处理的结果进行显示,有一些商业图形软件和大数据可以很好的集成如Intellicus,功能很完善图形显示也很漂亮但是目前阶段过于繁琐,而且还是收费的。还有一种是Eclipse的BIRT插件,这个工具比较好用,比较适合正式的项目开发应用。后来偶尔发现一个很好用的小工具Gnuplot,可以在window, linux各种平台上运行的,主要是应用在数学计算中的的画各种函数曲线,

2014-11-11 10:37:49 678

原创 Hadoop的脚本语言Pig应用

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。从编写mapreduce程序到编译部署通常都很耗费时间,有可能运维人员都不懂mapreduce,在这种情况下可以用轻量级的脚本语言Pig来完成,通过Pig引擎生成分布式的mapreduce

2014-11-11 10:37:47 820

原创 大数据云计算的利器hadoop介绍

Hadoop是由ASF(Apache SoftwareFoundation)源于Lucene的子项目Nutch所开发的开源分布式计算平台,可以构建具有高容错性、可伸缩性、低成本、和良好扩展的高效分布式系统,允许用户将Hadoop部署在大量廉价硬件设备所组成的集群上,为应用程序提供一组稳定可靠的接口,充分利用集群的存储和计算能力,完成海量数据的处理。由于Hadoop优势突出,得到了众多企业和个人的青

2014-11-11 10:37:44 801

原创 hadoop实现表连接算法

常见的单表,多表连接可以用SQL很简单的表示出来,但是对于hadoop就有点复杂了,这里简单介绍下如何用hadoop的key/value实现表之间的连接。现在有两张表emp, dept分别显示员工信息和部门信息,需要实现以下的需求1. 求每个部门的总工资2. 求每个部门的平均工资和人数SQL> select * from emp; EMPNO ENAME JOB

2014-11-11 10:37:41 473

原创 Hadoop Definitive Guide --- Chapter 6. How MapReduce Works

在本章中我们看看MapReduce具体工作的细节,可以为后面写更高级的程序打下良好的基础。Anatomy of a MapReduce Job Run你可以通过如下两种方法来运行MapReduce的Job,submit和waitForCompletion,它包括了很多底层处理的细节,接下来我们看看它是怎么工作的。在hadoop0.20和更高的版本上,mapred.job.tracker属性决定了j

2014-11-11 10:37:38 410

原创 MapReduce的单元测试框架MRUnit

最近在写MapReduce程序,写完后再放到hadoop集群上跑,发现不是很方便。然后在window环境上装了eclipse直接写程序远程提交job到hadoop集群上,大大提高了效率。但是mapreduce的单元测试工具还是得要的,有利于程序的调试。Apache官方提供了MRUnit框架用来专门测试MapReduce程序,它是基于Junit框架的。链接如下:http://mrunit.apach

2014-11-11 10:37:35 570

原创 Window平台的eclipse连接linux的hadoop集群

前提条件:之前已经在VM上虚拟了三台linux,并且安装了hadoop集群feixu-master, feixu-slave1, feixu-slave2, feixu-slave3需求: 为了开发和调试的方便,因此需要在windows平台上装eclipse来远程连接linux的hadoop集群。正常是模式是在eclipse中开发和调试小的数据集,然后部署到集群上去跑作业。软件版本: hadoop

2014-11-11 10:37:32 707

原创 Hadoop分析NCDC气象数据

气象数据准备:1. 下载1993年到2003年每年的部分气象数据ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/2. 下载的文件格式是*.gz,用zcat命令将其解压并上传到hdfszcat *.gz>1993.txtbin/hadoop fs -put 1993.txt /feixu/input3. 查看hdfs上的气象数据,总大小约1.2G MapReduce代码

2014-11-11 10:37:29 1439

原创 hadoop文件读写示例

1 在Hadoop集群中编译并运行《权威指南》中的例3.2import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import o

2014-11-11 10:37:26 578

原创 Hadoop Definitive Guide --- Chapter 10. Administering Hadoop

HDFS作为管理员,应该对hdfs的各个组件namenode, secendary namenode, datanode是如何在硬盘上组织文件有个基本的了解。namenode directory structure${dfs.name.dir}/└── current/├── VERSION├── edits├── fsimage└── fstime VERSION文件是一个java属性文件,包括

2014-11-11 10:37:23 315

原创 hadoop word count example

1. 运行hadoop-1.2.1自带的wordcount example在$hadoop_home目录生成file01, file02文本文件  将file01, file02放到hdfs的某一个目录下bin/hadoop fs -put file01  /user/hadoop/wordcount/inputbin/hadoop fs -put file02  /user/hadoop/wor

2014-11-11 10:37:20 459

原创 Hadoop Definitive Guide --- Chapter 3. The Hadoop Distributed Filesystem

The Design of HDFSHDFS的设计目标是在普通的大规模集群上存储海量的数据。Very large files非常大的文件意味着数百个M,G,T级别的数据,hadoop集群现在能存储PB级别的数据。Streaming data accessHDFS建立在最高效的一次写,多次读的数据处理方式,所以采用流式数据读取。Commodity hardwareHadoop不需要很昂贵的高性能的机

2014-11-11 10:37:18 308

原创 Hadoop Definitive Guide --- Chapter 1. Meet Hadoop

Data我们生活在数据的元年,IDC分析报告指出在2006年现有的数量是0.18zb,到2011年达到1.8zb。Byte --> KB --> MB --> GB --> TB --> PB --> EB --> ZB大量的数据来源于哪里呢?* 纽约的股票交易市场每天产生1tb新的交易数据。* facebook存储了大概一千万的照片,接近1pb的存储空间。* 互联网档案存储了2pb的数据,正在以

2014-11-11 10:37:14 377

原创 Hadoop HBase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigt

2014-11-11 10:37:12 341

原创 Google Bigtable 论文

Google Bigtable论文: http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/bigtable-osdi06.pdf简介:Bigtable是一个分布式的结构化数据存储系统,可以在上千台普通的机器上存储PB级别的数据。目前在GOOGLE有超过

2014-11-11 10:37:09 732

原创 Hadoop MapReduce工作原理

Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,处理input split,其为一个Java进程,其main class为TaskTrackerHDFS:hadoop分布式文件系统

2014-11-11 10:37:06 868

原创 Google MapReduce 论文

Google MapReduce论文: http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/mapreduce-osdi04.pdf1. 介绍MapReduce是用来处理和生成大数据量的一种编程模型。用户指定map函数处理key/value的输入,产生

2014-11-11 10:37:04 771

原创 Hadoop Distributed File System( HDFS)

HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。分布式文件系统就是管理网络计算机上存储的文件。基于网络存储和分布计算带来的挑战比传统的文件系统更加复杂,例如某个节点失败导致数据丢失的问题。HDFS优点1. 成本很低。运行在普通廉价的服务器上。2. 线性增长。3. 自动数据冗余。HDFS设计思想1. 硬件错误作为一种常态,因此要提

2014-11-11 10:37:01 654

原创 Google GFS 论文

简介:现在云计算渐成潮流,对大规模数据应用、可伸缩、高容错的分布式文件系统的需求日渐增长。Google根据自身的经验打造的这套针对大量廉价客户机的Google GFS文件系统已经广泛的在Google内部进行部署,对于有类似需求的企业而言有相当的参考价值。Google GFS论文: http://static.googleusercontent.com/external_content/untrus

2014-11-11 10:36:58 952

原创 Nutch 2 + HBase + Solr 4集成

1.  安装和编译Nutch从apache官网下载Nutch 2.2.1(apache-nutch-2.2.1-src.tar.gz), 3.7M只包含src文件,没有bin文件。从apache官网下载Ant 1.9.2(apache-ant-1.9.2-bin.tar.gz), 5.3M 是一个自动化的编译,打包,测试工具打开/etc/profile 配置ANT_HOME 和 PATHexpor

2014-11-11 10:36:55 810

原创 Ubuntu Server 12.04 搭建 hadoop 集群版环境——基于VirtualBox

1 . 下载和安装Oracle VM VitualBoxhttp://www.oracle.com/technetwork/server-storage/virtualbox/downloads/index.html (VirtualBox-4.2.6-82870-Win.exe)2.  下载Linux系统Ubuntu Server版本http://www.ubuntu.com/download/

2014-11-11 10:36:52 1082

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除