hadoop
数据玩家
我是一个被上帝遗弃的孩子~
展开
-
Hadoop+HBase搭建云存储总结
Hadoop文件系统是一个能够兼容普通硬件环境的分布式文件系统, 和现有的分布式文件系统不同的地方是Hadoop更注重容错性和兼容廉价的硬件设备,这样做是为了用很小的预算甚至直接利用现有机器就实现大流量和大数据量的读取。 Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取。HDFS(Hadoop FileSystem)原来是Apache Nutch搜索引擎(从Lucene发原创 2014-06-17 22:12:12 · 2453 阅读 · 0 评论 -
Linux下SSH免密码登录
搭建hadoop集群的时候一定会用到的就是SSH免密码登录 [java] view plaincopy [hadoop@hadoop1 ~]$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/原创 2014-06-18 11:18:34 · 671 阅读 · 0 评论 -
Google File System
Google文件系统 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。 1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这就转载 2014-06-18 15:49:50 · 1022 阅读 · 0 评论 -
MapReduce
摘要 MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作. 以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数转载 2014-06-18 15:52:45 · 2266 阅读 · 0 评论 -
Google's BigTable
题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 欢迎订阅作者微博 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理大数据量的系统。这种系统适合处理半结构化转载 2014-06-18 15:51:23 · 543 阅读 · 0 评论