2016年01月_神探狄仁杰

06月 01月

原创 Hadoop分布式文件系统——LZO

Hadoop提供了bzip2、gzip、DEFALTE等多种传统压缩算法，亦实现了这些算法的JAVA实现。因为，既可以用FileSystem API对文件进行压缩和解压，也可以通过MapReduce输入输出格式化来实现。这些算法的缺点是：压缩格式不可分割，即不可分片！然而，Hadoop的一个作业流程中，是由输入文件字节数与数据块的字节数(默认数据块是64MB)决定mapper启动的数量。

2016-01-22 11:27:59 1055

原创 Hadoop分布式文件系统——HDFS的读写

HDFS是运行在通用硬件平台上的可容错分布式文件系统。它优化了大文件的流式读取模式，适用于那些高吞吐并且对延迟性要求相对比较低的场景。它还通过文件“一次写入，多次读取”的简单策略保证了数据的一致性。HDFS亦使用了“块复制”的概念，让数据在集群的节点间进行复制，每个数据块复制的份数由“复制因子”决定。 HDFS包含三个服务： A、NameNode：

2016-01-22 10:06:26 2016

原创 Hadoop分布式文件系统——导入和导出数据

一、使用hadoop shell命令导入和导出数据到HDFS →1、创建新目录：hadoop fs -mkdir /data/logs/ →2、从本地复制到HDFS的新目录：hadoop fs -copyFromLocal entries.log /data/logs →3、列出HDFS上entries.log文件信息：hadoop fs -ls

2016-01-10 15:45:45 12416

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人