2012年02月_hguisu

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 lamp安装配置详细过程（把以前的笔记贴上来）

准备;首先进入/usr/local/目录#cd /usr/local删除所有安装过的php mysql apache 以及libxml首先查看目前 /usr/local目录下面的内容#ls –l如果看到php5 php apache2 apache mysql mysql5 libxml libxml2字样的目录都将其删除具体命令如下#rm –rf php5 删除

2012-02-29 15:16:59 7813

原创 PHP通过Thrift操作Hbase

HBase是一个开源的NoSQL产品，它是实现了Google BigTable论文的一个开源产品，和Hadoop和HDFS一起，可用来存储和处理海量column family的数据。官方网址是：http://hbase.apache.org一、HBase访问接口1. Native Java API，最常规和高效的访问方式，适合Hadoop MapReduce Job并行批处理HBase

2012-02-27 07:58:23 32505 2

原创 Hadoop Hive与Hbase整合+thrift

Hadoop Hive与Hbase整合一、简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive与HB

2012-02-22 09:47:15 39983 9

原创 MapReduce数据流

Hadoop的核心组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线　　MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文

2012-02-16 17:29:57 6710

原创用PHP编写Hadoop的MapReduce程序

Hadoop流虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且可以把数据写入标准输出流中，那么就可以通过Hadoop流使用任何语言编写MapRed

2012-02-16 11:20:37 17915

原创 hadoop安全模式

hadoop安全模式在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示

2012-02-15 15:25:56 13160

原创 Hadoop HDFS分布式文件系统设计要点与架构

Hadoop简介：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throug

2012-02-15 14:23:14 9763

原创 HDFS写入和读取流程

一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chun

2012-02-14 23:50:11 32308 9

原创 Hadoop Hive sql语法详解

1. DDL Operations创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表：hive> SHOW TABLES;

2012-02-14 09:37:11 268646 6

原创网络互联参考模型（详解）

网络互联参考模型1. 什么是协议为了使数据可以在网络上从源传递到目的地，网络上所有设备需要“讲”相同的“语言”描述网络通信中“语言”规范的一组规则就是协议例如：两个人交谈，必须使用相同的语言，如果你说汉语，他说阿拉伯语……数据通信协议的定义决定数据的格式和传输的一组规则或者一组惯例2. 协议分层网络通信的过程很复杂：数据以电子信号的形

2012-02-10 19:22:40 24660 2

原创谷歌三大核心技术（三）Google BigTable中文版

Bigtable：一个分布式的结构化数据存储系统译者：alex 摘要Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大，无论是在数据量上

2012-02-09 12:05:26 62480

原创谷歌三大核心技术（二）Google MapReduce中文版

Google MapReduce中文版译者: alex 摘要MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很

2012-02-09 11:54:51 12026

原创谷歌三大核心技术（一）The Google File System中文版

The Google File System中文版译者：alex摘要我们设计并实现了Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的能力，为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处，但是，我们的设计还是以我们对自己的应用的负载

2012-02-09 11:14:44 10448

原创 HBase技术介绍

HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapRe

2012-02-09 10:42:09 4419

原创 hbase安装配置（整合到hadoop）

hbase安装配置（整合到hadoop） Huangguisu1.快速单机安装：在单机安装Hbase的方法。会引导你通过shell创建一个表，插入一行，然后删除它，最后停止Hbase。只要10分钟就可以完成以下的操作。1.1下载解压最新版本选择一个 Apache 下载镜像：http://www.apache.org/dyn/closer.cgi/hbase/，下载 HBase

2012-02-09 10:16:40 149580 4

原创 Hadoop实战实例

Hadoop实战实例 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这

2012-02-07 14:47:44 35703

原创 Hadoop简介

Hadoop的概要介绍Hadoop，是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的，具有良好的可移植性。 Hadoop的发展历史 Hadoop是Doug

2012-02-07 12:00:28 13142

原创 Hadoop集群配置（最全面总结）

Hadoop集群配置（最全面总结） huangguisu 通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址：(http://hadoop.apache.org/common/docs/r0.19.2/cn/cl

2012-02-06 17:15:34 143472 7