- 博客(30)
- 收藏
- 关注
转载 hadoop2.x常用端口及定义方法
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFS
2015-01-10 10:28:03 698
原创 hadoop工作流调度oozie安装
1. 下载http://www.cloudera.com/content/cloudera/en/downloads/cdh/cdh-5-1-0.html (oozie-4.0.0+cdh5.1.0+249)2. 解压创建libext, 并把oozie-hadooplibs-4.0.0-cdh5.1.0.tar.gz解压的jar包以及ext-2.2.zip
2015-01-07 14:00:24 502
原创 Hadoop性能参数调优
MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuffer,即上图的buffer in memory),map会将
2014-11-11 10:38:10 539
原创 hadoop1.2.1+zookeeper3.4.6+hbase0.94集群环境搭建
hadoop集群环境搭建参考前面的hadoop集群搭建文档,搭建了三个服务器的集群如下feixu-master namenode, secondaryNamenode, jobtrackerfeixu-slave1 datanode, tasktrackerfeixu-slave2 datanode, tasktrackerzookeeper集群环境搭建zooKeeper是
2014-11-11 10:38:07 535
原创 企业级hadoop集群选型配置
硬件配置处理器: 2个四核2-2.5GHz的CPU内存: 16-24GB存储器:4 * 2TB SATA硬盘(不需要RAID)网络: 千兆以太网软件配置操作系统: 发型版的64位linux(CentOS, Ubuntu, Redhat)Hadoop版本: 免费的有Apache, CDH,付费的有华为,EMC,INTEL的JDK: 64位的jdk, 32最大只能支持3G内存淘宝的hadoop集群规模
2014-11-11 10:38:04 728
原创 virtualbox桥接网络配置--CentOS
系统安装好后如下图设置virtualbox虚拟机的网络连接方式vi /etc/sysconfig/network-scripts/ifcfg-eth0根据主机的网络配置如下重新启动网卡 service network restart 但是ping www.baidu.com发现ping不通,是因为没有配置域名服务器vi /etc/resolv.confnameserver 8.8.8.8 #g
2014-11-11 10:38:01 362
原创 hadoop基础总结
Hadoop的各种基本类型: 已经实现的各种Mapper:已经实现的各种Reducer:InputFormat的各种实现类:OutputFormat的各种实现类:Hadoop支持的各种聚合函数:
2014-11-11 10:37:59 372
原创 RDBMS和HDFS, HIVE, HBASE的迁移工具Sqoop
Sqoop 简介Apache Sqoop 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 ( 如 HBase 和 Hive) 中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。Sq
2014-11-11 10:37:55 620
原创 Hadoop数据仓库hive的应用
Hive介绍1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系
2014-11-11 10:37:52 1009
原创 Gnuplot图形展示hadoop处理结果
一直苦恼于如何将hadoop处理的结果进行显示,有一些商业图形软件和大数据可以很好的集成如Intellicus,功能很完善图形显示也很漂亮但是目前阶段过于繁琐,而且还是收费的。还有一种是Eclipse的BIRT插件,这个工具比较好用,比较适合正式的项目开发应用。后来偶尔发现一个很好用的小工具Gnuplot,可以在window, linux各种平台上运行的,主要是应用在数学计算中的的画各种函数曲线,
2014-11-11 10:37:49 684
原创 Hadoop的脚本语言Pig应用
Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。从编写mapreduce程序到编译部署通常都很耗费时间,有可能运维人员都不懂mapreduce,在这种情况下可以用轻量级的脚本语言Pig来完成,通过Pig引擎生成分布式的mapreduce
2014-11-11 10:37:47 839
原创 大数据云计算的利器hadoop介绍
Hadoop是由ASF(Apache SoftwareFoundation)源于Lucene的子项目Nutch所开发的开源分布式计算平台,可以构建具有高容错性、可伸缩性、低成本、和良好扩展的高效分布式系统,允许用户将Hadoop部署在大量廉价硬件设备所组成的集群上,为应用程序提供一组稳定可靠的接口,充分利用集群的存储和计算能力,完成海量数据的处理。由于Hadoop优势突出,得到了众多企业和个人的青
2014-11-11 10:37:44 810
原创 hadoop实现表连接算法
常见的单表,多表连接可以用SQL很简单的表示出来,但是对于hadoop就有点复杂了,这里简单介绍下如何用hadoop的key/value实现表之间的连接。现在有两张表emp, dept分别显示员工信息和部门信息,需要实现以下的需求1. 求每个部门的总工资2. 求每个部门的平均工资和人数SQL> select * from emp; EMPNO ENAME JOB
2014-11-11 10:37:41 486
原创 Hadoop Definitive Guide --- Chapter 6. How MapReduce Works
在本章中我们看看MapReduce具体工作的细节,可以为后面写更高级的程序打下良好的基础。Anatomy of a MapReduce Job Run你可以通过如下两种方法来运行MapReduce的Job,submit和waitForCompletion,它包括了很多底层处理的细节,接下来我们看看它是怎么工作的。在hadoop0.20和更高的版本上,mapred.job.tracker属性决定了j
2014-11-11 10:37:38 415
原创 MapReduce的单元测试框架MRUnit
最近在写MapReduce程序,写完后再放到hadoop集群上跑,发现不是很方便。然后在window环境上装了eclipse直接写程序远程提交job到hadoop集群上,大大提高了效率。但是mapreduce的单元测试工具还是得要的,有利于程序的调试。Apache官方提供了MRUnit框架用来专门测试MapReduce程序,它是基于Junit框架的。链接如下:http://mrunit.apach
2014-11-11 10:37:35 580
原创 Window平台的eclipse连接linux的hadoop集群
前提条件:之前已经在VM上虚拟了三台linux,并且安装了hadoop集群feixu-master, feixu-slave1, feixu-slave2, feixu-slave3需求: 为了开发和调试的方便,因此需要在windows平台上装eclipse来远程连接linux的hadoop集群。正常是模式是在eclipse中开发和调试小的数据集,然后部署到集群上去跑作业。软件版本: hadoop
2014-11-11 10:37:32 714
原创 Hadoop分析NCDC气象数据
气象数据准备:1. 下载1993年到2003年每年的部分气象数据ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/2. 下载的文件格式是*.gz,用zcat命令将其解压并上传到hdfszcat *.gz>1993.txtbin/hadoop fs -put 1993.txt /feixu/input3. 查看hdfs上的气象数据,总大小约1.2G MapReduce代码
2014-11-11 10:37:29 1460
原创 hadoop文件读写示例
1 在Hadoop集群中编译并运行《权威指南》中的例3.2import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import o
2014-11-11 10:37:26 586
原创 Hadoop Definitive Guide --- Chapter 10. Administering Hadoop
HDFS作为管理员,应该对hdfs的各个组件namenode, secendary namenode, datanode是如何在硬盘上组织文件有个基本的了解。namenode directory structure${dfs.name.dir}/└── current/├── VERSION├── edits├── fsimage└── fstime VERSION文件是一个java属性文件,包括
2014-11-11 10:37:23 323
原创 hadoop word count example
1. 运行hadoop-1.2.1自带的wordcount example在$hadoop_home目录生成file01, file02文本文件 将file01, file02放到hdfs的某一个目录下bin/hadoop fs -put file01 /user/hadoop/wordcount/inputbin/hadoop fs -put file02 /user/hadoop/wor
2014-11-11 10:37:20 469
原创 Hadoop Definitive Guide --- Chapter 3. The Hadoop Distributed Filesystem
The Design of HDFSHDFS的设计目标是在普通的大规模集群上存储海量的数据。Very large files非常大的文件意味着数百个M,G,T级别的数据,hadoop集群现在能存储PB级别的数据。Streaming data accessHDFS建立在最高效的一次写,多次读的数据处理方式,所以采用流式数据读取。Commodity hardwareHadoop不需要很昂贵的高性能的机
2014-11-11 10:37:18 316
原创 Hadoop Definitive Guide --- Chapter 1. Meet Hadoop
Data我们生活在数据的元年,IDC分析报告指出在2006年现有的数量是0.18zb,到2011年达到1.8zb。Byte --> KB --> MB --> GB --> TB --> PB --> EB --> ZB大量的数据来源于哪里呢?* 纽约的股票交易市场每天产生1tb新的交易数据。* facebook存储了大概一千万的照片,接近1pb的存储空间。* 互联网档案存储了2pb的数据,正在以
2014-11-11 10:37:14 384
原创 Hadoop HBase
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigt
2014-11-11 10:37:12 349
原创 Google Bigtable 论文
Google Bigtable论文: http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/bigtable-osdi06.pdf简介:Bigtable是一个分布式的结构化数据存储系统,可以在上千台普通的机器上存储PB级别的数据。目前在GOOGLE有超过
2014-11-11 10:37:09 742
原创 Hadoop MapReduce工作原理
Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,处理input split,其为一个Java进程,其main class为TaskTrackerHDFS:hadoop分布式文件系统
2014-11-11 10:37:06 876
原创 Google MapReduce 论文
Google MapReduce论文: http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/no//archive/mapreduce-osdi04.pdf1. 介绍MapReduce是用来处理和生成大数据量的一种编程模型。用户指定map函数处理key/value的输入,产生
2014-11-11 10:37:04 785
原创 Hadoop Distributed File System( HDFS)
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。分布式文件系统就是管理网络计算机上存储的文件。基于网络存储和分布计算带来的挑战比传统的文件系统更加复杂,例如某个节点失败导致数据丢失的问题。HDFS优点1. 成本很低。运行在普通廉价的服务器上。2. 线性增长。3. 自动数据冗余。HDFS设计思想1. 硬件错误作为一种常态,因此要提
2014-11-11 10:37:01 672
原创 Google GFS 论文
简介:现在云计算渐成潮流,对大规模数据应用、可伸缩、高容错的分布式文件系统的需求日渐增长。Google根据自身的经验打造的这套针对大量廉价客户机的Google GFS文件系统已经广泛的在Google内部进行部署,对于有类似需求的企业而言有相当的参考价值。Google GFS论文: http://static.googleusercontent.com/external_content/untrus
2014-11-11 10:36:58 963
原创 Nutch 2 + HBase + Solr 4集成
1. 安装和编译Nutch从apache官网下载Nutch 2.2.1(apache-nutch-2.2.1-src.tar.gz), 3.7M只包含src文件,没有bin文件。从apache官网下载Ant 1.9.2(apache-ant-1.9.2-bin.tar.gz), 5.3M 是一个自动化的编译,打包,测试工具打开/etc/profile 配置ANT_HOME 和 PATHexpor
2014-11-11 10:36:55 816
原创 Ubuntu Server 12.04 搭建 hadoop 集群版环境——基于VirtualBox
1 . 下载和安装Oracle VM VitualBoxhttp://www.oracle.com/technetwork/server-storage/virtualbox/downloads/index.html (VirtualBox-4.2.6-82870-Win.exe)2. 下载Linux系统Ubuntu Server版本http://www.ubuntu.com/download/
2014-11-11 10:36:52 1091
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人