Hadoop&大数据
梦想涨价了
有舍有得知足常乐
展开
-
Hive体系结构
本文整理自阿里数据平台的官方博客:http://www.alidata.org/archives/category/cloud-computing/hive 1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Clie转载 2015-01-13 09:52:29 · 891 阅读 · 0 评论 -
HDFS设计初探
本文整理自网上多篇文章。 1、HDFS基本概念 (1)数据块(block) * HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 * 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 * 不同于普通文件系统的是,HDFS中,如果一个文件小于转载 2015-01-13 09:57:54 · 949 阅读 · 0 评论 -
Hadoop学习路线图
按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/c转载 2015-01-13 09:30:19 · 660 阅读 · 0 评论 -
Hadoop在百度的应用--4000个节点的分布式集群
1、百度高性能计算系统 本文整理自:http://www.csdn.net/article/2010-11-02/281263?1290758548 百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的转载 2015-01-13 09:53:47 · 971 阅读 · 0 评论 -
Hive入门指南
本文整理自Hive官方Wiki的Getting Started部分:https://cwiki.apache.org/confluence/display/Hive/Home 1、安装与配置 Hive是建立在Hadoop上的数据仓库软件,用于查询和管理存放在分布式存储上的大规模数据集。它提供: (1)一系列的工具,可以方便地对数据进行提取/转化/加转载 2015-01-13 09:50:32 · 687 阅读 · 0 评论 -
MapReduce
本文整理自:http://developer.yahoo.com/hadoop/tutorial/module4.html 1、MapReduce基础 (1)函数式编程概念 MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集转载 2015-01-13 09:41:57 · 1943 阅读 · 0 评论 -
Hadoop集群搭建
官方配置手册:http://hadoop.apache.org/docs/stable/ 通常,Hadoop集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,它们是slaves。 1、先决条件 确保在你的集群中的每个节点上都安装了所有必需软件:转载 2015-01-13 09:34:11 · 590 阅读 · 0 评论 -
HDFS架构
本文整理自:http://hadoop.apache.org/docs/stable/hdfs_design.html 1、引言 Hadoop分布式文件系统(HDFS)是一个分布式的文件系统,运行在廉价的硬件上。它与现有的分布式文件系统有很多相似之处。然而与其他的分布式文件系统的差异也是显着的。HDFS是高容错的,被设计成在低成本硬件上部署。HDFS为应用数据提供高吞吐量的访问转载 2015-01-13 09:41:09 · 653 阅读 · 0 评论 -
Hadoop在Last.fm的应用--音乐排行榜
本文整理自:http://cloud.it168.com/a2011/0922/1250/000001250122.shtml Last.fm:社会音乐史上的革命 Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供很多服务,例如免费听音乐和音乐下载,音乐及重大事件推荐,个性化图表服务以及其他很多服务。每个月大约有2500万人使用La转载 2015-01-13 09:56:52 · 1682 阅读 · 0 评论