hadoop基础
文章平均质量分 86
大数据最好
大数据,机器学习,深度学习
展开
-
google三大论文
Google三大论文之一:BigTableBigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。什么是BigTable?Bigtable是一个分布式的结构化数据存储系统。设计目的是可靠的处理PB级原创 2015-11-19 23:27:15 · 4829 阅读 · 0 评论 -
hdfs-shell操作
查看hdfs文件系统指定路径的文件:[root@zwt1 ~]# hdfs dfs -ls /Found 4 itemsdrwxr-xr-x - root supergroup 02015-11-05 03:31 /datadrwxr-xr-x - root supergroup 02015-11-05 03:32 /outputdrwx原创 2015-11-19 23:29:03 · 540 阅读 · 0 评论 -
hdfs详解
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。2、最高效的访问模式是 一次写入、多次读取(流式数据访问) HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间原创 2015-11-29 22:27:44 · 1292 阅读 · 0 评论 -
HDFS的namenode和datanode
一、概述HDFS集群以Master-Slave模式运行,主要有两类节点:一个Namenode(即Master)和多个Datanode(即Slave)。HDFS Architecture:二、NamenodeNamenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的原创 2015-11-29 22:48:17 · 1201 阅读 · 0 评论 -
hdfs的FileSystem API
FileSystem类是与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。FSDataInputStream:与URL的openStream()方法返回InputStream不同,FileSy原创 2015-11-30 22:57:08 · 618 阅读 · 0 评论 -
hadoop I/O中的压缩
package hdfs;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.Inpu原创 2015-12-05 15:39:08 · 474 阅读 · 0 评论