![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
文章平均质量分 89
stefshawn
这个作者很懒,什么都没留下…
展开
-
NN HA 对于 Client 透明的实验
之前转载过一篇【伊利丹】写的NN HA实验记录,该博客描述了主备NN透明切换的过程,也就是说,当主NN挂掉后,自动将备NN切换为主NN了,Hadoop集群正常运行。今天我继续做了一个实验,目的是实现NN的切换不会对Client端程序造成影响,即NN切换对Client透明。首先,很重要的一点:要保证core-site.xml中的转载 2014-07-24 11:43:39 · 771 阅读 · 0 评论 -
Hadoop之Hive本地与远程mysql数据库管理模式安装手册
一、环境描述Mysql版本:mysql-installer-community-5.5.27.1 32位Mysql for Windows 7 32位:我把mysql数据库安装在了自己win7的笔记本上,这样的好处就是减少了虚拟机 master slave的开销和使用空间还可以多利用一台机器的资源,如果你的虚拟机资源很紧张的话也可以这样部署。Linux ISO:CentOS转载 2013-11-01 10:48:33 · 1641 阅读 · 0 评论 -
hadoop2.1.0在ubuntu下的安装配置
在Ubuntu下安装hadoop2.1.0之前,首先需要安装如下程序:|- JDK 1.6 or later|- SSH(安全协议外壳) 。要装这两个程序的原因:1. Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK。2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的转载 2013-10-22 14:47:00 · 692 阅读 · 0 评论 -
Hadoop学习笔记【12】-Hadoop2.1全分布式集群安装
1. 环境5个节点,配置如下:dual core x86_64, 4GB RAM, 10GB DiskCentos 6.4_x64OpenJDK 1.7.0_9hadoop-2.1.0-beta互相之间千兆网连接。每台机器上用于安装和启动hadoop的用户名都是xc节点的hostname、安装的服务和ip如下:转载 2013-10-22 14:43:05 · 747 阅读 · 0 评论 -
Hadoop 2.0:分布式环境搭建安装配置
集群环境:1 NameNode(真实主机):Linux yan-Server 3.4.36-gentoo #3 SMP Mon Apr 1 14:09:12 CST 2013 x86_64 AMD Athlon(tm) X4 750K Quad Core Processor AuthenticAMD GNU/Linux2 DataNode1(虚拟机):Linux n转载 2013-10-22 14:41:14 · 810 阅读 · 0 评论 -
MapReduce执行流程
MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduce worker读取map任务的输出文件转载 2013-10-21 10:25:15 · 651 阅读 · 0 评论 -
使用mysql数据库作为Hive的元数据库
在hive/conf文件夹下找到hive-default.xml.template,复制该文件并改名为hive-site.xml。修改一下内容: hive.metastore.local true javax.jdo.option.ConnectionURL jdbc:mysql://master:3306/metastore转载 2013-10-26 18:49:50 · 1581 阅读 · 0 评论 -
Hadoop Hive与Hbase整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.转载 2013-10-26 18:51:48 · 860 阅读 · 0 评论 -
windows下Eclipse安装hadoop1.1.2插件连接hadoop集群
1、下载Eclipse解压。2、把hadoop-eclipse-plugin-1.1.2.jar放到eclipse的plugs目录下。 我的hadoop集群用的版本:hadoop1.1.2 hadoop0.20以后的版本的安装目录下contrib/没有eclipse的hadoop-*-eclipse-plugin.jar插件,需要自己用an转载 2013-10-16 15:21:35 · 889 阅读 · 0 评论 -
Hadoop集群_Eclipse开发环境设置
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Window转载 2013-10-16 15:22:44 · 809 阅读 · 0 评论 -
Hadoop的namenode和secondnamenode分开部署在不同服务器
一、系统环境: Hadoop 0.20.2、JDK 1.6、Linux操作系统二、使用背景 网上关于hadoop的集群配置,很多情况下,都是把namenode和secondnamenode部署在同一服务器上。为了降低风险,一个大的集群环境,最好是把这两个配置到不同的服务器上。三、操作 要达到这要求,需要对conf/master、conf/hdfs-site.xml和co转载 2013-10-14 16:41:47 · 1645 阅读 · 0 评论 -
ubuntu11.04上cloudera cdh3u0的hadoop和hbase分布式安装
概述:业务需要较实时的处理大数据量,并提供大吞吐量的读写,hbase作为一个可选的列数据库,记录一下安装过程,待查。 hbase的安装需要hadoop和zookeeper和hbase,生产环境下需要将zookeeper独立安装,并保证整个集群没有单点。 hbase软件选择cloudera的cdh3u0,apache的版本需要重新编译hadoop0.20.2-appender版以转载 2013-10-14 15:50:10 · 788 阅读 · 0 评论 -
Zookeeper集群的安装部署
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在转载 2013-10-14 17:58:58 · 1021 阅读 · 0 评论 -
hadoop分布式安装过程
一、安装准备及环境说明1、下载hadoop-1.2.1,地址:http://apache.spinellicreations.com/hadoop/common/stable/hadoop-1.2.1-bin.tar.gz2、JDK版本:jdk1.6.0_35 (64位,必须是1.6)3、操作系统:CentOS 6.4 64位4、三台机器,10.108.102.5(master,h转载 2013-10-14 11:04:55 · 1160 阅读 · 2 评论 -
HBase分布式安装
安装HBase之前需要先安装Hadoop,因为HBase是运行在Hadoop集群上的。安装Hadoop可以参照http://www.cnblogs.com/stGeekpower/p/3307289.html一、安装准备及环境说明运行在http://www.cnblogs.com/stGeekpower/p/3307289.html中的三台机器上hbase1作为master,hbase转载 2013-10-14 10:58:26 · 736 阅读 · 0 评论 -
hadoop,hbase,hive安装全记录
操作系统:CentOS 5.5Hadoop:hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master,namenode的IP:10.10.102.15datanode主机名:slave1,datanode的IP:10.10.106.8datanode主机名:slave2,datanode的IP:10.10.106.9一、hadoop 安装转载 2013-11-01 17:17:54 · 1041 阅读 · 0 评论 -
hive集成hbase笔记
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进转载 2013-11-01 17:16:16 · 958 阅读 · 0 评论 -
使用hive读取hbase数据
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,转载 2013-11-01 17:20:58 · 1589 阅读 · 1 评论 -
Apache Hadoop 2.2.0 HDFS HA + YARN多机部署
部署逻辑架构:HDFS HA部署物理架构注意:JournalNode使用资源很少,即使在实际的生产环境中,也是把JournalNode和DataNode部署在同一台机器上;生产环境中,建议主备NameNode各单独一台机器。YARN部署架构:个人实转载 2014-07-24 10:09:38 · 790 阅读 · 0 评论 -
Hadoop 2.0.0-cdh4.5.0安装
Hadoop2.0.0-cdh4.5.0部署文档1. 环境Hadoop 2.0.0-cdh4.5.0java version "1.7.0_45"Ubuntu 12.04.3 LTS (GNU/Linux3.8.0-29-generic x86_64) VMware虚拟机3台:192.168.0.8 master192转载 2014-07-24 11:48:23 · 923 阅读 · 0 评论 -
Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】
引言:前面转载过一篇团队兄弟【伊利丹】写的NN HA实验记录,我也基于他的环境实验了NN HA对于Client的透明性。本篇文章记录的是亲自配置NN HA的详细全过程,以及全面测试HA对客户端访问透明性的全过程,希望对大家有帮助。实验环境:Hadoop2.2.0的4节点集群,ZK节点3个(ZK节点数最好为奇数个),hosts文件和各节点角色分配如下:转载 2014-07-24 11:42:13 · 862 阅读 · 0 评论 -
Hadoop2.4.1部署(完整版)
引言 转眼间,Hadoop的stable版本已经升级到2.4.1了,社区的力量真是强大!3.0啥时候release呢? 今天做了个调研,尝鲜了一下2.4.1版本的分布式部署,包括NN HA(目前已经部署好了2.2.0的NN HA,ZK和ZKFC用现成的),顺便也结合官方文档 http://hadoop.apache.org/docs/r2.4.1/hadoop-proj转载 2014-07-24 11:43:22 · 915 阅读 · 0 评论 -
Hadoop-2.2.0集群安装配置实践
Hadoop 2.x和1.x已经大不相同了,应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架,可以面向任何需要使用基于HDFS存储来计算的需要,当然MapReduce现在已经作为外围的插件式的计算框架,你可以根据需要开发或者选择合适的计算框架。目前,貌似对MapReduce支持还是比较好的,毕竟MapReduce框架已经还算成熟。其他一些基于YARN框架的接转载 2014-02-22 23:41:29 · 924 阅读 · 0 评论 -
Hive部署(包括集成Hbase和Sqoop)
1 安装环境1.1 系统环境 主要是选择软件版本。Hadoop 1.0.3Hbase 0.94.0Hive 0.8.1zookeeper-3.3.5Mysql 5.5.28JDK 1.6Sqoop-1.4.21.2 环境变量$HDOOP_HOME:/home/hadoop/hadoop$HBASE_HOME:/home/hadoop/hbase$HIVE_HOME转载 2013-11-15 10:12:14 · 941 阅读 · 0 评论 -
Hadoop数据传输工具sqoop
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可以参考:A New Ge转载 2013-11-15 11:47:20 · 1313 阅读 · 0 评论 -
hbase 与 hive 结合
前置条件hadoop hive hbase环境搭建完成。搭建版本hadoop-1.0.3hive-0.9.0hbase-0.94.2zookeeper-3.3.5步骤配置hive xml,配置hbase与hive结合包Xml代码 hive.aux.jars.path file:///usr/local/hive-0.9.0/lib/hive-hba转载 2013-11-15 11:04:37 · 1000 阅读 · 0 评论 -
sqoop hbase导入并与hive结合
sqoop语句以tid为主键,info为列族Html代码 sqoop import --connect jdbc:mysql://ip/taobao_db --username hive --password 123456 --table mysql_table_name --hbase-table hbase_table_name --column-fami转载 2013-11-15 10:27:44 · 1734 阅读 · 1 评论 -
sqoop的安装、配置及使用简介
下载sqoop和hadoop:wget http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u1.tar.gz wget http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u1.tar.gz解压:tar zxvf sqoop转载 2013-11-07 22:55:38 · 1173 阅读 · 0 评论 -
hadoop MapReduce实例解析
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job转载 2013-11-21 23:02:40 · 797 阅读 · 0 评论 -
MapReduce2.0(Yarn)
MapReduce2.0是在Hadoop0.23开始采用的,叫做MapReduce2.0或者MRv2或者Yarn。MRv2的主要思想是把jobtracker的任务分为两个基本的功能,一个是资源管理,一个是任务监控,这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器(ResourceManager)和每个应用程序的应用程序管理器(ApplicationMaster)。一转载 2013-11-05 19:59:06 · 1024 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原转载 2013-11-05 19:56:54 · 712 阅读 · 0 评论 -
hive的数据类型和数据模型
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大转载 2013-10-11 17:57:09 · 1067 阅读 · 0 评论 -
hive介绍
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的转载 2013-10-11 17:55:25 · 724 阅读 · 0 评论 -
hadoop学习笔记:zookeeper学习(上)
在前面的文章里我多次提到zookeeper对于分布式系统开发的重要性,因此对zookeeper的学习是非常必要的。本篇博文主要是讲解zookeeper的安装和zookeeper的一些基本的应用,同时我还会教大家如何安装伪分布式,伪分布式不能在windows下实现,只能在linux下实现,我的伪分布式是通过电脑的虚拟机完成了,好了,不废话了,具体内容如下: 首先我们要下载一个zookeep转载 2013-10-11 17:40:25 · 690 阅读 · 0 评论 -
AWS云平台系列介绍(一):AWS平台与EC2介绍
作者: Chuanhui | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明本文链接地址: http://www.nosqlnotes.net/archives/250AWS整体介绍Amazon平台的产品分为几个部分:计算类:包含弹性计算云(EC2)和弹性MapReduce(Elastic MapReduce)这两个产品。EC2几乎可以认转载 2012-09-05 09:27:50 · 5438 阅读 · 0 评论 -
Eucalyptus EE的介绍及功能说明
Eucalyptus企业版2.0是一个基于Linux的软件架构,在企业现有的IT架构上实现一个可扩展的、提高效率的私有和混合云。Eucalyptus作为基础设施提供IaaS服务。这意味着用户可以通过Eucalyptus自助服务界面提供自己的资源(硬件、存储和网络)。一个Eucal转载 2011-09-16 11:44:02 · 719 阅读 · 0 评论 -
用Eucalyptus轻松搭建一个简易私有云平台
摘要: Eucalyptus实现了Amazon EC2的功能,由于其开源性,注定了搭建一个私有的云计算平台成为可能. 更方便的是Ubuntu9.10服务器版已经集成了Eucalyptus这个开源软件,使的搭建企业私有的云计算平台变得方便而简单. ... ...众说周知Amazon EC2是一个公共云的计算平台,属于IaaS(基础设施即服务)这类. 现在有原创 2011-07-01 10:42:00 · 3161 阅读 · 0 评论 -
Eucalyptus使用的技术
libvirtLibvirt 库是一种实现 Linux 虚拟化功能的 Linux® API,它支持各种虚拟机监控程序,包括 Xen 和 KVM,以及 QEMU 和用于其他操作系统的一些虚拟产品。NettyNetty 提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。Axis2Axis2是下一代 A原创 2011-07-01 10:16:00 · 786 阅读 · 0 评论 -
《云计算核心技术剖析》
IT,身为一个新兴行业,在其发展历程中向其他行业借鉴了一些先进的思想和理念,比如除了前面提到的从电力行业借鉴了公用事业这种商业模式和从丰田汽车流水线生产中总结出精益这套编程模式之外,还在软件设计方面引入了架构这个在建筑行业非常核心的概念。架构,对软件系统而言是极为重要的。因为它不仅定义了系统内部各个模块之间是如何整合和协调的,同时也对其整体表现起着非常关键的作用。而云,作为一个非常复杂的大原创 2011-06-15 15:04:00 · 2354 阅读 · 0 评论 -
面向虚拟基础设施的云服务:IaaS和Eucalyptus
这个系列将探索云服务的主要类型以及可用来构建 Web 级系统的相关软件。本文介绍 Infrastructure as a Service (IaaS) 云是如何提供基本服务供您部署和运行应用程序的,以及 Eucalyptus 如何被用作一种基础设施来创建公有或私有云。 第 1 页 云计算概述第 2 页 Eucalyptus 本文来自IBM develo原创 2011-06-15 14:12:00 · 1291 阅读 · 0 评论