hadoop
a大数据yyds
大数据初学者
展开
-
Hadoop详解
Hadoop的介绍以及发展历史Hadoop之父Doug Cutting :Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。——分布式文件系统(G...原创 2019-12-13 20:03:45 · 1318 阅读 · 0 评论 -
shuffle阶段数据的压缩机制
1、hadoop当中支持的压缩算法文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输前面hadoop的版本经过重新编译之后,可以看到hadoop已经支持所有的压缩格式了,剩下的问题就是该如何选择使用这些压缩格式来对MapReduce程序进行压缩可以使用bin/hadoop checknative 来查看编译之后的hadoop支持的各种压缩,如果出现openssl为fals...原创 2019-11-19 11:11:41 · 2557 阅读 · 0 评论 -
MapReduce在集群中使用
MapReduce在集群中使用上传数据数据格式准备如下:创建项目https://blog.csdn.net/qq_45765882/article/details/103092093我在这篇文章中详细了如何创建一个新的项目和POM文件的数据定义mapper类import org.apache.hadoop.io.LongWritable;import org.apache.had...原创 2019-11-15 21:04:35 · 5254 阅读 · 0 评论 -
分布式计算框架MapReduce基本理解,使用MapReduce进行求每个单词的总和
什么是计算框架?是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。什么是并行计算框架?是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务器同时计算的框架。什么是分布式计算?分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,...原创 2019-11-15 20:54:22 · 5467 阅读 · 0 评论 -
Namenode故障恢复
Namenode元数据信息多目录配置为了保证元数据的安全性,我们一般都是先确定好我们的磁盘挂载目录,将元数据的磁盘做RAID1Namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。具体配置如下:文件名:hdfs-site.xmlNamenode故障恢复secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先...原创 2019-11-14 10:39:45 · 5968 阅读 · 0 评论 -
SecondarynameNode如何辅助管理FSImage与Edits文件
SecondarynameNode工作原理由于editlog记录了集群运行期间所有对HDFS的相关操作所以这个文件会很大。集群关闭后再次启动时会将Fsimage,editlog加载到内存中,进行合并,恢复到集群的。由于editlog文件很大所有,集群再次启动时会花费较长时间。为了加快集群的启动时间,所以使用secondarynameNode辅助NameNode合并Fsimage,edi...原创 2019-11-14 10:22:47 · 5864 阅读 · 0 评论 -
CDH版本Hadoop重新编译
目标:重新编译CDH版本的Hadoop为什么要编译Hadoop由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于CDH给出的Hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,好了废话不多说,接下来看如何编译由于后续课程需要使用snappy进行压缩数据,而CDH给出的Had...原创 2019-11-12 19:38:24 · 6094 阅读 · 0 评论 -
如何避免java.net.BindException
java.net.BindException: 地址已在使用 (Bind failed)01.异常提示端口号被占用2.查看端口属于哪个程序?端口被哪个进程占用3.杀掉占用端口的进程重启集群...原创 2019-11-11 09:53:39 · 3721 阅读 · 0 评论