Hadoop
不撸代码闲得慌
这个作者很懒,什么都没留下…
展开
-
Hadoop压缩方式详解
首先为什么要使用压缩 压缩技术能够有效的减少底层存储系统(HDFS)读写字节数,通过对mapper,reducer运行过程的数据进行压缩,以减少磁盘IO,提高MR程序的运行速度。 压缩的基本原则 1.运算密集型的任务,少使用压缩 2.IO密集型的任务,多使用压缩 MR支持的压缩格式 压缩格式 是否需要安装 算法 文件扩展名 是否可切分 DEFLATE 否 deflate .deflate 否 Gzip 否 deflate .gz 否 bzip2 否 bzip2 .bz2 是 LZ原创 2020-07-27 15:33:18 · 284 阅读 · 0 评论 -
HDFS常用指令总结
常用指令截图 指令实际操作 -help:帮助命令参数 hdfs dfs -help ls 查看ls命令的作用 -ls:显示目录信息 hdfs dfs -ls / -mkdir:在hdfs上创建目录 hdfs dfs -mkdir -p /user/test -p参数代表可以创建多级目录 -moveFromLocal:将本地文件剪切上传到hdfs hdfs dfs -moveFromLocal ./demo.txt /user/test -appendToFile:追加一个文件到已经存在的文件末尾原创 2020-07-26 11:25:30 · 243 阅读 · 0 评论 -
hadoop序列化与Java序列化比较
什么是序列化 序列化就是把内存中的对象转化为字节序列,以便于存储到磁盘和进行网络传输。 反序列化就是将收到的字节序列或者是磁盘的持久化数据,转换为内存中的对象。 为什么要进行序列化 一般来说,活的对象只生存在内存中,关机断电后就会失效;而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机,然而序列化可以存储活的对象,可以将活的对象发送到远程的计算机中。 Java序列化 Java序列化是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(校验信息流量,header,继承体系等),不原创 2020-07-20 11:24:13 · 489 阅读 · 0 评论