- 博客(3)
- 收藏
- 关注
原创 Hadoop分布式文件系统——LZO
Hadoop提供了bzip2、gzip、DEFALTE等多种传统压缩算法,亦实现了这些算法的JAVA实现。因为,既可以用FileSystem API对文件进行压缩和解压,也可以通过MapReduce输入输出格式化来实现。这些算法的缺点是:压缩格式不可分割,即不可分片! 然而,Hadoop的一个作业流程中,是由输入文件字节数与数据块的字节数(默认数据块是64MB)决定mapper启动的数量。
2016-01-22 11:27:59 1055
原创 Hadoop分布式文件系统——HDFS的读写
HDFS是运行在通用硬件平台上的可容错分布式文件系统。它优化了大文件的流式读取模式,适用于那些高吞吐并且对延迟性要求相对比较低的场景。它还通过文件“一次写入,多次读取”的简单策略保证了数据的一致性。HDFS亦使用了“块复制”的概念,让数据在集群的节点间进行复制,每个数据块复制的份数由“复制因子”决定。 HDFS包含三个服务: A、NameNode:
2016-01-22 10:06:26 2016
原创 Hadoop分布式文件系统——导入和导出数据
一、使用hadoop shell命令导入和导出数据到HDFS →1、创建新目录:hadoop fs -mkdir /data/logs/ →2、从本地复制到HDFS的新目录:hadoop fs -copyFromLocal entries.log /data/logs →3、列出HDFS上entries.log文件信息:hadoop fs -ls
2016-01-10 15:45:45 12416
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人