hadoop
逗点儿
大数据爱好者,菜鸟
展开
-
MapReduce1.X与2.X的对比
MR2.X相较与MR1.X 做了比较大的优化,降低的MR中JobTracker的压力,将其资源管理及任务的生命周期管理都拆分成独立的组件,更名为YARNMapReduce1.X架构组成:JobTracker(JT) 作业的管理者将作业切分成任务:MapTask和ReduceTask将任务分派给TaskTracker执行作业的监控,接受心跳信息,如果没有收到心跳信息,就切换到其他TT执行任务原创 2017-12-21 14:46:03 · 1111 阅读 · 0 评论 -
IDEA+MAVEN搭建Scala错误:Error:scalac: error while loading JUnit4, Scala signature JUnit4 has
有开头是类似错误的: Error:scalac: error while loading JUnit4, Scala signature JUnit4 has wrong version expected: 5.0解决方法: 主要是版本问题 ,将maven自动生成的test和main下面的文件全部删除就好了。若泽大数据交流群:671914634...原创 2018-02-01 11:05:18 · 5870 阅读 · 2 评论 -
YARN的内存和CPU配置
本文链接地址:http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.htmlHadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Conta转载 2018-01-14 17:52:26 · 217 阅读 · 0 评论 -
MapReduce Shuffle详解
首先,我们先将MR Shuffle的整个流程进行简述: 一.概要:Map端分区排序合并Reduce端复制归并reduce 大概分为五个主要步骤二.架构图三.详解Map端分区 Partition首先,为了减少频繁IO的操作,先将数据写入到环形内存缓冲区中,默认大小为100MB,缓冲区中存在一个可设置的阙值(默认为0.8),当阙值达到0.8原创 2018-01-14 22:27:57 · 587 阅读 · 0 评论 -
HIVE-1.1.0-cdh5.7.0安装
环境说明Hadoop-2.6.0-cdh5.7.0JDK1.7MySQL5.6mysql-connector-java-5.1.45安装包下载及解压下载地址:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz配置环境变量hado原创 2018-01-03 12:20:27 · 2139 阅读 · 1 评论 -
HDFS文件读写
HDFS读写图解 这是读写全流程,大家感应一下。HDF文件读流程 这是我觉得比较浅显易懂的图片,下面我对该图片的步骤进行详解: 1. 利用FileSystem的open()方法打开文件 2. 通过访问NN获取部分或全部块的信息 3. 利用FSDataInputStream的read()方法发出读取请求 4. 选择DN读取数据,先进行信息文件校验,然后再读取信息 5. 如果只读取部分块,原创 2017-12-19 15:07:59 · 296 阅读 · 0 评论 -
HDFS副本机制
为什么要出现HDFS? 首先要说起hdfs的由来,hdfs由谷歌最先研发,其需求是单独一台计算机所能存储的空间是有限的,而随着计算机存储空间的加大,其价格是呈几何倍的增长,所以就有了hdfs的产生,hdfs架构在相对廉价的计算机上,以分布式的方式,这样想要扩大空间只要增加集群的数量就可以为什么hdfs需要副本机制?在上个问题的时候,我说过我们需要的是大量相对廉价的计算机,那么宕机就是一种必然事件原创 2017-12-19 14:03:34 · 8788 阅读 · 0 评论 -
Hadoop-2.6.0-cdh5.7.0安装详解
下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk:注册甲骨文账号下载,推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software/jdk-7u80-linux-x64.tar.gz -C /usr/ja原创 2018-01-02 16:40:59 · 8088 阅读 · 3 评论 -
Hadoop多次格式化导致datanode无法启动
首先看一下报错信息:017-12-14 05:07:57,636 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Starting BPOfferServices for nameservices: <default> at org.apache.hadoop.hdfs.server.datanode.DataStorage原创 2017-12-16 14:28:40 · 1218 阅读 · 0 评论 -
Linux Hadoop的编译及安装
编译Hadoop的下载及解压 # hadoop源代码的下载可以为不同版本,推荐hadoop-2.8.1版本,hadoop:root:/opt/sourcecode:>lltotal 448328-rw-r--r-- 1 root root 34523353 Dec 11 07:02 hadoop-2.8.1-src.tar.gzhadoop:root:/opt/sourcecode:原创 2017-12-15 23:05:42 · 269 阅读 · 0 评论 -
问题疑惑
1.怎么修改hostname(临时和永久)?修改完临时的,是不是要把当前终端退出,重新进? 在/etc/sysconfig/network修改, hadoop:root:/root:>cat /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 2.将普通用户升级为sudo用户 在/etc/su原创 2017-12-22 22:06:52 · 179 阅读 · 0 评论 -
MR Shuffle个人理解
个人理解(嘿嘿嘿,不考虑阅读效果了)shuffle分为map端shuffle和reduce端shuffle。 map端并不是处理一点写一点,而是先将处理的数据写入到环形缓冲区,缓冲区默认大小为100M,阈值默认为0.8,也就是说当阈值达到0.8即80M时,开始将数据以轮询方式写入到本地spll磁盘。如果缓冲区写入数据达到100M时,则将map暂时阻塞,等待缓冲区写出。在缓冲区写到磁盘前,...原创 2018-04-26 23:27:36 · 633 阅读 · 0 评论