guisu,程序人生。 逆水行舟,不进则退。

能干的人解决问题。智慧的人绕开问题(A clever person solves a problem. A wise person avoids it)...

排序:
默认
按更新时间
按访问量

跟上节奏 大数据时代十大必备IT技能

新的想法诞生新的技术,从而造出许多新词,云计算、大数据、BYOD、社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇。这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能。 新的想法诞生新的技术,从而造出许多新词,云计算、大数据、BYOD、社交媒...

2015-05-30 11:46:32

阅读数:32809

评论数:1

Hive深入浅出

1.  Hive是什么 在接触一个新的事物首先要回到的问题是:这是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to ena...

2014-02-19 10:55:54

阅读数:12760

评论数:1

深入解析:分布式系统的事务处理经典问题及模型(转载分享)

摘要:分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型,如:Master-Slave,Master-Master,2PC/3PC,经典的将军问题,Paxos,以及Dynamo的NRW和VectorClock的模型。 编者按:数据服务的高可用是所有企业...

2014-01-21 15:22:32

阅读数:10746

评论数:3

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径(分享)

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径

2013-12-23 16:17:26

阅读数:7090

评论数:0

你的数据根本不够大,别老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据...

2013-10-10 21:13:34

阅读数:10218

评论数:4

Storm集群安装详解

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。 3.1 Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。...

2013-07-25 19:58:05

阅读数:21576

评论数:1

海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介         Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。        Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断...

2012-08-14 18:40:48

阅读数:66402

评论数:13

海量数据处理

海量数据处理是基于海量数据上的存储、处理、操作。        所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据,我们想到的最简单方法即是分治法,即分开处理,大而化小,小而治之。我们也可以想到集群分布式处理。 ...

2012-08-11 11:55:27

阅读数:6249

评论数:0

PHP通过Thrift操作Hbase

HBase是一个开源的NoSQL产品,它是实现了Google BigTable论文的一个开源产品,和Hadoop和HDFS一起,可用来存储和处理海量column family的数据。官方网址是:http://hbase.apache.org 一 、HBase访问接口 1.  Native Ja...

2012-02-27 07:58:23

阅读数:28665

评论数:14

Hadoop Hive与Hbase整合+thrift

Hadoop Hive与Hbase整合  一 、简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduc...

2012-02-22 09:47:15

阅读数:38150

评论数:16

MapReduce数据流

Hadoop的核心组件在一起工作时如下图所示: 图4.4高层MapReduce工作流水线   MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任...

2012-02-16 17:29:57

阅读数:5648

评论数:0

用PHP编写Hadoop的MapReduce程序

Hadoop流 虽然Hadoop是用java写的,但是Hadoop提供了Hadoop流,Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数. Hadoop流动关键是,它使用UNIX标准流作为程序与Hadoop之间的接口。因此,任何程序只要可以从标准输入...

2012-02-16 11:20:37

阅读数:15609

评论数:0

hadoop安全模式

hadoop安全模式 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过...

2012-02-15 15:25:56

阅读数:12115

评论数:0

Hadoop HDFS分布式文件系统设计要点与架构

Hadoop简介:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性...

2012-02-15 14:23:14

阅读数:9127

评论数:1

HDFS写入和读取流程

一、HDFS HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 目前HDFS支持的使用接口除了Java的还...

2012-02-14 23:50:11

阅读数:30352

评论数:22

Hadoop Hive sql语法详解

1. DDL Operations 创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITI...

2012-02-14 09:37:11

阅读数:213078

评论数:11

谷歌三大核心技术(三)Google BigTable中文版

Bigtable:一个分布式的结构化数据存储系统 译者:alex   摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Ea...

2012-02-09 12:05:26

阅读数:49861

评论数:1

谷歌三大核心技术(二)Google MapReduce中文版

Google MapReduce中文版     译者: alex   摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集...

2012-02-09 11:54:51

阅读数:8455

评论数:2

谷歌三大核心技术(一)The Google File System中文版

The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。   虽然...

2012-02-09 11:14:44

阅读数:6152

评论数:0

HBase技术介绍

HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS...

2012-02-09 10:42:09

阅读数:4093

评论数:0

提示
确定要删除当前文章?
取消 删除