hadoop
Java码界探秘
本博客不再维护,搬家到 http://zthinker.com。个人公众号(Java码界探秘)
展开
-
谷歌三大核心技术(一)Google File System中文版
谷歌三大核心技术(一)Google File System中文版 The Google File System中文版 译者:alex 摘要 我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。 虽然GFS的设计目标与许多传统的分布式文件系转载 2013-03-17 16:30:45 · 954 阅读 · 0 评论 -
mapreduce-从wordcount开始
1.wordcount的代码如下 public class WordCount { public static class TokenizerMapper extends Mapper { private final static IntWritable one = new IntWritable(1); private Text wor转载 2013-05-14 22:04:22 · 642 阅读 · 0 评论 -
MapReduce算法模式
读者是没有耐心的,我也没有,所以先说结论:你可以不用编程序,只要鼠标点几下拖动些图标,改改参数,就能完成过亿数据的分布处理程序。 当然,这么理想的目标现在还没有达到,但路已经明明白白的展现在面前了,至少我们已经走了接近一半了。 首先说明, MapReduce算法本身就来自于函数式编程,因此用FP的思路来进行算法构建是再合理不过的事情。之前的程序是用Haskell开发的,现在用Pytho转载 2013-05-14 22:00:08 · 542 阅读 · 0 评论 -
MapReduce 模式、算法和用例
本文译自 Mapreduce Patterns, Algorithms, and Use Cases 在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sort转载 2013-05-14 21:58:39 · 578 阅读 · 0 评论 -
Hadoop单机部署方法
安装Java JDK: 到sun网站上下载jdk chmod +x jdk-6u30-linux-x64.bin ./jdk-6u30-linux-x64.bin 下载Hadoop wget http://labs.renren.com/apache-mirror/hadoop/common/hadoop-0.20.205.0/hadoop-0.20.205转载 2013-05-14 20:46:01 · 546 阅读 · 0 评论 -
Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析
成堆的数据如何变成信息金矿 Andrew Glover, 作家和开发人员, Beacon50 简介: Apache Hadoop 是目前分析分布式数据的首选工具,和大多数 Java™ 2.0 技术一样,是可扩展的。从 Hadoop 的 MapReduce 编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。 查看本系列更多内容 发布日期转载 2013-05-14 22:52:23 · 853 阅读 · 1 评论 -
急性子的开源大数据,第 1 部分: Hadoop 教程:Hello World 与 Java、Pig、Hive、Flume、Fuse、Oozie,以及 Sqoop 与 Informix、DB2 和
如何开始使用 Hadoop 和自己喜欢的数据库 Marty Lurie, 系统工程师, IBM 简介: 本文的重点是解释大数据,然后在 Hadoop 中提供简单的工作示例,Hadoop 是在大数据领域的主要开源选手。您会很高兴地听到,Hadoop 并不是 Informix® 或 DB2® 的替代品,但事实上与现有的基础架构配合得很好。Hadoop 家族有多个组件,本转载 2013-05-14 22:45:51 · 2856 阅读 · 0 评论 -
探索大数据分析和 Hadoop
1. 大数据 大数据 是指变得过大而无法通过传统方法操纵的数据集。这些方法包括在可承受的时间内对数据进行捕获、存储和处理。虽然术语大数据 曾被用作数据仓库概念,但它现在只专注于处理的容量、吞吐量和通用性的大规模处理架构。 阅读: Forrester:大数据 – 从小规模开始,但迅速扩大 阅读: 驾驭大数据 阅读: 利用大数据获得新的业务洞转载 2013-05-14 22:33:45 · 832 阅读 · 0 评论 -
实践:使用 Apache Hadoop 处理日志
使用典型 Linux 系统上的 Hadoop 从日志中提取有用数据 M. Tim Jones, 独立作家, 顾问 简介: 日志是任何计算系统中一个必不可少的部分,支持从审计到错误管理等功能。随着日志的发展和日志来源数量的不断增加(比如在云环境中),有必要提供一个可扩展的系统来高效处理日志。这篇实践将探讨如何在典型 Linux 系统上使用 Apache Hadoop转载 2013-05-14 22:31:58 · 844 阅读 · 0 评论 -
MapReduce算法设计--Think in Hadoop
本文介绍几种MapReduce算法设计的技巧,全部内容翻译自《Data-Intensive Text Processing with MapReduce》。 Local Aggregation 说到Local Aggregation,你可能会想不就是Combiner吗。实际上在mapper中进行combining比使用真正的combiner高效得多。首先combiner只是作为MapReduc转载 2013-05-14 21:59:23 · 924 阅读 · 0 评论 -
hadoop单机版搭建图文详解
前置条件: 1、ubuntu10.10安装成功(个人认为不必要花太多时间在系统安装上,我们不是为了装机而装机的) 2、jdk安装成功(jdk1.6.0_23for linux版本,图解安装过程http://freewxy.iteye.com/blog/882784 ) 3、下载hhadoop0.21.0.tar.gz(http://apache.etoak.com//hadoo转载 2013-05-14 20:44:15 · 645 阅读 · 0 评论 -
hadoop 2.0 详细配置教程
PS:文章有部分参考资料来自网上,并经过实践后写出,有什么问题欢迎大家联系我。 Hadoop 2.0集群配置详细教程 前言 Hadoop2.0介绍 Hadoop是 apache 的开源 项目,开发的主要目的是为了构建可靠,可拓展 scalable ,分布式的系 统, hadoop 是一系列的子工程的 总和,其中包含 1. hadoop common : 为其他项转载 2013-05-14 20:37:05 · 625 阅读 · 0 评论 -
谷歌三大核心技术(三)Google_BigTable中文版
译者:alex 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批转载 2013-03-17 16:37:04 · 1115 阅读 · 0 评论 -
谷歌三大核心技术(二)Google MapReduce中文版
谷歌三大核心技术(二)Google MapReduce中文版 Google MapReduce中文版 译者: alex 摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的转载 2013-03-17 16:32:08 · 777 阅读 · 0 评论 -
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel
http://www.csdn.net/article/2012-08-21/2808870 摘要:Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。转载 2013-03-17 16:44:20 · 826 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2014-07-11 16:12:09 · 586 阅读 · 0 评论