自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jack Zhou的专栏

一切都将灰飞烟灭,我们要做的就是尽情燃烧!

  • 博客(13)
  • 资源 (12)
  • 收藏
  • 关注

转载 Hadoop在Facebook的使用--广告分析

本文整理自:http://cloud.it168.com/a2011/0922/1250/000001250122_1.shtml    发展史    随着Facebook网站的使用量增加,网站上需要处理和存储的日志和维度数据激增。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。此外,由于工程资源有限,所以系统必须是可信的,并且易于使用和维护

2013-04-30 17:05:26 3822

转载 Hive体系结构

本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive    1、Hive架构与基本组成    下面是Hive的架构图。图1.1 Hive体系结构    Hive的体系结构可以分为以下几部分:    (1)用户接口主要有三个:CLI,Client 和 WUI。其中最

2013-04-29 14:37:11 24535 1

翻译 Hive入门指南

本文整理自Hive官方Wiki的Getting Started部分:https://cwiki.apache.org/confluence/display/Hive/Home    1、安装与配置    Hive是建立在Hadoop上的数据仓库软件,用于查询和管理存放在分布式存储上的大规模数据集。它提供:    (1)一系列的工具,可以方便地对数据进行提取/转化/加载(ETL)

2013-04-25 15:59:08 11236

翻译 开源软件架构:可扩展的Web架构与分布式系统

本文翻译自:http://www.aosabook.org/en/index.html (卷2第1章)    中文版参考了这里的翻译:http://www.oschina.net/translate/scalable-web-architecture-and-distributed-systems    开源软件已成为一些超大型网站的基础组件。并且随着那些网站的发展,围绕它们的架构出现

2013-04-21 17:03:21 10093

转载 曹政谈数据分析:数据分析这点事

整理自:http://hi.baidu.com/ncaoz/item/564975db8fcd6495260ae79e先声明一下,按照传统的定义,我还真不是数据分析高手,各种关联算法,只会最简单的一种(话说不少场合还算管用);各种挖掘技术,基本上一窍不通;各种牛逼的数据分析工具,除了最简单的几个免费统计平台之外,基本上一个都不会用。所以,各种高手高高手请随意BS,或自行忽略。这里说点高

2013-04-17 12:36:39 2558

翻译 如何设计伟大产品:要学会讲故事

本文整理自:http://gigaom.com/2013/04/14/why-good-storytelling-helps-you-design-great-products/    对于产品设计团队来说,他们面临的最大问题是,经常将外观时髦的产品与功能优越的产品混为一谈,而且这种问题屡见不鲜。表面看来,这是一个微不足道的失误,但却会造成十分严重的后果:毕竟,如果用户玩不转你的产品,

2013-04-17 12:35:39 1042

转载 知乎圆桌论坛:设计就是生产力

整理自:http://www.zhihu.com/topic/19793502    1、科技新趋势与设计  交互设计当然离不开硬件和软件的发展变化。什么是科技前行的方向?百度上海移动互联网用户体验负责人MoonMonster总结了13个潜在的趋势,其中包括私有物品智能化、智能家电的变革、机顶盒的战火、语音、体感、社交综合症等。他说:  如果尝试画一个圈,中间是人,离用

2013-04-17 12:31:50 1921

转载 HDFS设计初探

本文整理自网上多篇文章。    1、HDFS基本概念    (1)数据块(block)    * HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。    *  和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。    *  不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的

2013-04-17 00:37:22 3641

翻译 Yahoo!教程:MapReduce

本文整理自:http://developer.yahoo.com/hadoop/tutorial/module4.html    1、MapReduce基础    (1)函数式编程概念    MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集群上去了

2013-04-16 21:14:52 3703

翻译 Yahoo!教程:Hadoop分布式文件系统

本文整理自:http://developer.yahoo.com/hadoop/tutorial/    1、问题范围    Hadoop是一个大规模分布式批处理架构,虽然它在单台计算机上也能使用,但它的真正能力是在成百上千计算机上运行时才显现出来,Hadoop可以高效地将大量工作高效地分布到一组计算机上。    它能处理多大量的工作?Hadoop面对的处理工作比许多现在系统处理要

2013-04-16 21:03:16 1956

翻译 HDFS架构

本文整理自:http://hadoop.apache.org/docs/stable/hdfs_design.html    1、引言    Hadoop分布式文件系统(HDFS)是一个分布式的文件系统,运行在廉价的硬件上。它与现有的分布式文件系统有很多相似之处。然而与其他的分布式文件系统的差异也是显着的。HDFS是高容错的,被设计成在低成本硬件上部署。HDFS为应用数据提供高吞吐量的访问

2013-04-16 12:20:19 10694 1

原创 Hadoop学习路线图

按照这个路线图来学习即可。    1、M. Tim Jones的三篇文章:    用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html    用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/c

2013-04-14 23:18:53 46848 7

原创 搭建Hadoop集群

官方配置手册:http://hadoop.apache.org/docs/stable/    通常,Hadoop集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,它们是slaves。    1、先决条件    确保在你的集群中的每个节点上都安装了所有必需软件:

2013-04-14 23:07:58 4433

More Effective C++中文版

Effective C++的姐妹篇,也算是C++圣经的延续吧,岂能错过呢?!

2009-07-03

Effective C++中文版(第三版)

这个不用说了,大家都知道,C++程序员的圣经!世界上只有两类C++程序员,一类是读过这本书的,一类是没读过这本书的(表面上看好像废话,看书就知道了)。

2009-07-03

C++程序设计语言(特别版).part2

Bjarne Stroustrup的书,C++语言最经典的一本,这是中文版。文件比较大,分2部分,这是第2部分。

2009-06-28

C++程序设计语言(特别版).part1

Bjarne Stroustrup的书,C++语言最经典的一本,这是中文版。文件比较大,分2部分,这是第1部分。

2009-06-28

EJB3.0实例教程

EJB3.0入门经典教程:理论和实例结合在一起讲解,通俗易懂,涵盖了EJB3.0开发的各个方面, 是一本不可多得的EJB3.0教程。

2007-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除