Hadoop
瓜牛呱呱
Hope is a good thing
展开
-
hadoop中hdfs文件上传
这里不讲解hdfs上传文件的代码,只讲hdfs文件上传的过程中内部的工作 原理一、客户端对hdfs各种操作的代码package com.Lin_wj1995.bigdata.hdfs;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import org.apache.hado原创 2016-08-09 12:10:08 · 5399 阅读 · 0 评论 -
hadoop中hdfs文件下载
一、不多说,按照惯例,先贴代码 还是建议粘贴到自己的eclipse中查看package com.Lin_wj1995.bigdata.hdfs;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configurat原创 2016-08-10 10:26:55 · 2216 阅读 · 0 评论 -
Hadoop压缩格式中“是否可切分”字段说明
文件压缩有两个好处:减少存储文件所需的磁盘空间,并加速数据在网络和磁盘上的传输 在存储中,所有算法都要权衡空间/时间;在处理时,所有算法都要权衡CPU/传输速度以下列出了与Hadoop结合使用的常见压缩方法: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLA原创 2018-01-04 09:36:43 · 3057 阅读 · 0 评论 -
联邦HDFS(HDFS Federation)
对于联邦HDFS的一些概念,我这里先不进行介绍;下面直接记录我对理解联邦HDFS时产生的疑惑以及疑惑的答案。问题产生:首先在我的理论知识中,联邦HDFS,就是有多个active的namenode,不同的namenode掌管hdfs中不同路径下文件的数据,互相隔离,互不影响。这里理论的论证就是,在CDH页面配置联邦HDFS时,需要指定装载点,即这个nameservice负责管理哪个目录下的数据。这让原创 2017-12-29 17:42:20 · 1474 阅读 · 0 评论 -
Spark 和 MR(MapReduce) 的区别
个人总结了三点,如下:数据处理形式不同:Spark的数据转换都是基于内存的,而MR都是处理一次刷到磁盘一次代码书写的不同:Spark提供了非常丰富的算子,书写起来非常爽,而MR的书写就有点让人头痛容错性不同:Spark的容错比MR更加高,因为Spark算子有血缘关系...原创 2018-04-09 16:24:43 · 1497 阅读 · 0 评论