2013年08月_hua840812

转载 Ubuntu建立本地源实用案例

Ubuntu建立本地源非常实用，很多服务器在局域网没有网络或者网络很慢的情况下，或者需要批量安装同样的软件的时候，如果每一台服务器都去外网下载，是不是很慢，而且也不是一个运维工程师愿意这么干的！那有什么好的办法呢，如下记录ubuntu12.04本地源的安装方法，仅供参考。系统环境：ubuntu12.04一、实验目的在一台ubuntu12.04服务器上面建立ubuntu常用软件安装源，由

2013-08-28 16:04:29 608

原创虚机安装Cloudera Manager准备工作

Oracle Virtualbox，3个nodes，组成hadoop cluster，并且在线安装cloudera manager以及CDH。遇到如下问题：1、虚机需要组成一个局域网，和主机通信，且虚机可以访问外网。设置虚机的上网方式：Host Only + NAT模式（可上外网） 2、虚机上网乱码。安装wqy-bitmapfont-0.8.1-7.noarch.rpm包，

2013-08-28 14:29:25 2159

转载 Cloudera Manager and CDH安装及配置

Cloudera Manager需求：磁盘空间，最小满足：------------系统/var分区下有5GB------------系统/usr分区有500MB------------系统/opt下面最好多配置点多数情况下RAM 4GB是比较合适的，如果装了Oracle数据库，就是必须的了。没有Oracle数据库且节点在100个以下的，也是足够的。通常说来，不推荐使用虚拟机

2013-08-26 15:39:12 1815 1

转载 Yum软件仓库配置

转自：http://ucweb.blog.51cto.com/4042188/968341Yum软件仓库配置现在我们来说一下yum源的配置，大家都知道rpm –ivh xxx.rpm能安装软件，这是没有错的，但是如果哪天你要安装一个软件，发现一堆的依赖关系，关系多达几百个，错综复杂，你是不是会崩溃掉，这个情况在默认没有安装桌面的环境中经常遇到，在init 3模式下安装init 5的X w

2013-08-23 15:01:27 697

转载通过sqoop 实现hdfs与mysql的数据导入导出

做这个实验需要安装好了hadoop环境，还需要一台mysql服务器（可以是单独的主机，也可以是hadoop集群中的任一一台）先搞清sqoop,mysql,hdfs 3者之间的关系mysql 与 hadoop集群之间没有直接联系，是通过第三方软件sqoop实现的mysql --> sqoop --> hdfs mysql 1 下载安装sqoop，在hadoop集群的任一一个节

2013-08-21 14:40:31 1482

转载深入学习《Programing Hive》：HiveQL索引

Hive提供有限的索引功能，这不像传统的关系型数据库那样有“键(key)”的概念，用户可以在某些列上创建索引来加速某些操作，给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚，提供的选项还较少。但是，索引被设计为可使用内置的可插拔的java代码来定制，用户可以扩展这个功能来满足自己的需求。当然不是说有的查询都会受惠于Hive索

2013-08-21 12:06:24 820

转载 hbase介绍

一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop be

2013-08-21 10:54:28 634 1

转载分布式数据库HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bi

2013-08-21 10:38:13 605

转载 Apache Hadoop NextGen MapReduce (YARN)

转自：http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.htmlMapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.

2013-08-20 16:36:23 511

转载为什么会有Map-reduce v2 (Yarn)

Why Yarn：Map-reduce老矣，尚能饭否?第一次看到Yarn的问题，就需要问问，为什么要重新设计之前这样一个成熟的架构。“The Apache Hadoop Map-reduce framework is showing it’s age, clearly”, 社区的Yarn设计文档 ”MapReduce_NextGen-Architecture”如是说。目前的Map-

2013-08-20 16:00:56 705

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同仁应该很熟悉如下的原 MapRe

2013-08-20 15:25:27 711

转载 hadoop版本及cloudera的CDH3 CDH4

hadoop有两个分支：0.20.x 和0.23.x。其中0.20.x是比较稳定的版本，0.23.x中新特性更多，但相对不稳定。其中从0.20.x 分支发展出来的是：hadoop1.0，CDH3从0.23.x 分支发展出来的是：hadoop-alpha，CDH4 下面具体说hadoop1.0、2.0 和CDH3、CDH4： Apache Hadoop 2012年10

2013-08-20 15:21:31 917

转载记一次oracle的rac环境下，字符集修改

一、系统版本和环境系统版本：# oslevel -s5300-10-00-0000oracle版本：SQL> select * from v$version;BANNER--------------------------------------------------------------------------------Oracle Database 11g

2013-08-12 18:12:37 786

转载 Oracle Data Integrator 介绍

本文介绍了 Oracle Data Integrator，它是一个基于 Java 的中间件，可以使用数据库在 SOA 中执行基于集合的数据集成任务。现在，复杂的“可热插拔”系统和面向服务的体系结构 (SOA) 得到了广泛应用，这使得将数据合理地整合在一起的难度日益增加。尽管您的主要应用程序数据库在 Oracle 数据库上运行，但是可能还有其他较小的系统在其他供应商提供的数据库和平台上运行。

2013-08-06 15:12:04 818

转载 Exadata上的多主机管理工具——dcli

Exadata上的多主机管理工具——dcli原文链接： http://www.dbaleet.org/what_is_dcli/在上篇文章中，介绍group文件的用途的时候曾经提到过一个叫做dcli的工具，但也只是一笔带过，这篇文章主要介绍dcli的用途及用法。随着云计算的越来越盛行，未来可预见集群的规模会变得越来越大，而在大型的数据中心，一个系统管理员/数据库管理员有可能同时需要

2013-08-05 11:00:56 10978 1

hua840812的专栏