![](https://img-blog.csdnimg.cn/20200606122051908.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData - Hadoop
文章平均质量分 64
hadoop 相关
BF-LoneSilverWind
睿智 灵动 从容 淡定
展开
-
0.1 Hadoop 伪分布式搭建 & 测试
伪分布式搭建 准备hadoop的tar包 下载地址: https://archive.apache.org/dist/hadoop/common/ 单机的免秘钥 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa ssh-copy-id root@192.168.241.210 ~/.ssh/id_rsa.pub 把公钥发送给自己 登录本机测试 ssh root@...原创 2020-01-10 20:59:43 · 116 阅读 · 0 评论 -
0.2 Hadoop完全分布式搭建
搭建完全分布式(练习用) 主机相互免秘钥 3台主机分别生成自己的秘钥对 --语法: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 将自己的公钥拷贝给别人 --语法: ssh-copy-id root@192.168.241.211 ~/.ssh/id_rsa.pub ssh-copy-id root@192.168.241.212 ~/.ssh/id_rsa...原创 2020-01-10 21:04:21 · 114 阅读 · 0 评论 -
0.3 Hadoop高可用集群搭建
搭建高可用集群 搭建Zookeeper 准备三台相互免秘钥的虚拟机 上传zookeeper 解压 移动 解压zookeeper的tar包 --语法: tar -zxf zookeeper-3.4.6.tar.gz 移动zookper目录 --语法: mv zookeeper-3.4.6 /opt/sxt/ 修改配置文件zoo.cfg 进入zookeeper配置文件目录 --语法示例: c...原创 2020-01-10 21:06:42 · 104 阅读 · 0 评论 -
0.4 Hadoop-HA 搭建
搭建Hadoop-HA 配置 传输 解压 拷贝 --语法: --解压hadooptar包 tar -zxf hadoop-2.6.5.tar.gz --移动解压文件目录 mv hadoop-2.6.5 /opt/sxt/ 修改.sh配置文件 --进入hadoop配置文件目录 cd /opt/sxt/hadoop-2.6.5/etc/hadoop/ 修改.sh文件的JAVA_HOME配置 vi...原创 2020-01-10 21:07:50 · 222 阅读 · 0 评论 -
0.5 Hadoop Yarn环境搭建
搭建高可用集群 搭建Zookeeper 准备三台相互免秘钥的虚拟机 上传zookeeper 解压 移动 解压zookeeper的tar包 --语法: tar -zxf zookeeper-3.4.6.tar.gz 移动zookper目录 --语法: mv zookeeper-3.4.6 /opt/sxt/ 修改配置文件zoo.cfg 进入zookeeper配置文件目录 --语法示例: c...原创 2019-12-11 09:22:49 · 122 阅读 · 0 评论 -
HDFS读写数据流程
HDFS读写数据流程 写数据流程 就是将客户端的数据上传到HDFS 写数据宏观流程 -客户端向HDFS发送写数据请求 --hdfs dfs -put tomcat.tar.gz /xxxxx/gy -hdfs通过rpc调用nn的create方法 --nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在 ---没有:直接抛出对应的异常 ---有:NN...原创 2020-01-10 21:02:12 · 175 阅读 · 0 评论 -
BigData - Hadoop 内容目录
1.1 Hadoop 简介 Hadoop组成 HDFS分布式存储系统 伪分布式搭建 伪分布式测试 集群节点 集群相关 HDFS读写数据流程 1.2 Hadoop 大数据思想 搭建完全分布式(练习用) Hadoop 1.x 2.x HA Federation 1.3 Hadoop 搭建高可用集群 搭建Hadoop - HA Yarn环境 各节点解析 搭建Yarn环境 Yarn集群开启&...原创 2019-12-17 11:17:22 · 147 阅读 · 0 评论 -
1.1 Hadoop 简介 & 相关
简介 问题起源 Google 爬取全球的网站,然后计算页面的PageRank 要解决的问题 这些网站怎么存放 这些网站应该怎么计算 思想之源 Google发布了三篇论文 GFS : Google File System – 谷歌文件系统 MapReduce :数据计算的方法 BigTable Hadoop创始人 Doug cutting 花费了自己的两年业余时间,用java将论文实...原创 2019-12-16 10:46:37 · 99 阅读 · 0 评论 -
1.2 Hadoop
大数据思想 计算向数据靠拢 高容错性:多副本模式 适合大数据计算:不管多大的数据,在程序员眼中只有128M 构建在廉价的机器上 Hadoop不支持秒级解决数据 Hadoop不适合小文件的存储 搭建完全分布式 主机相互免秘钥 3台主机分别生成自己的秘钥对 --语法: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 将自己的公钥拷贝给别人 --语法: ss...原创 2019-12-09 21:51:20 · 102 阅读 · 0 评论 -
2.1 MapReduce理论
MapReduce理论 MapReduce -map-->映射 -reduce-->归纳 -mapreduce必须构建在hdfs之上 -mapreduce是一种离线计算框架 -在线:实时数据处理 -离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 -mapreduce不会马上得到结果,他会有一定的延时 -如果数据量小,使用mapreduce反而不合适,就像...原创 2019-12-11 10:03:47 · 106 阅读 · 0 评论 -
2.1.1 Hadoop map端的 Combiner
1.Combiner是MR程序中Mapper和Reduce之外的一种组件 2.Combiner组件的父类就是Reducer 3.Combiner和Reducer之间的区别在于运行的位置 4.Reducer是每一个接收全局的Map Task 所输出的结果 5.Combiner是在MapTask的节点中运行 6.每一个map都会产生大量的本地输出,Combiner的作用就是对m...原创 2019-12-25 16:52:17 · 187 阅读 · 0 评论 -
2.2 WordCount项目
Java端 项目右键Build Path → Configure Build Path → Librarys → Add Library → User Library → hadoop-lib121 获取配置文件 从yarn虚拟机中拷贝4个配置文件 实例化job对象 设置job的主类 设置job的名称 设置Job的reduce数量 设置job的mapper输出key和value的类型 设置jo...原创 2019-12-20 20:26:34 · 88 阅读 · 0 评论 -
2.3 MapReduce源码分析01
Map源码-Split 以下代码为了思路通顺进行过拆分整理 ---- 重在理解 //提交任务,等待任务完成并返回任务状态 job.waitForCompletion(true); //判断当前的状态 if (state == JobState.DEFINE) { //提交任务 submit(); } //监控任务的运行状态 if (verbose) { mon...原创 2019-12-20 20:37:15 · 76 阅读 · 0 评论 -
2.4 MapReduce源码分析02
Map的源码分析 //make a task context so we can get the classes org.apache.hadoop.mapreduce.TaskAttemptContext taskContext = new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job,getT...原创 2019-12-20 20:52:26 · 160 阅读 · 0 评论 -
2.5 MapReduce架构
MapReduce1.x client 客户端发送mr任务到集群 客户端的种类有很多种 hadoop jar wordcount.jar JobTracker 接受客户端的mr任务 选择一个资源丰富的,执行对应的任务 并且给这个任务分配资源 与TaskTracker保持心跳,接受汇报信息 TaskTracker 保持心跳,汇报资源 当分配资源之后,开始在本机分配对应的资源...原创 2019-12-20 20:59:18 · 102 阅读 · 0 评论 -
3.1 Eclipse整合hdfs环境
Eclipse 连接 HDFS开发环境整合 解压Hadoop 解压hadoop-2.6.5.tar.gz,将解压后的文件夹存放到自己软件目录 D:\ProgramFiles 替换bin文件夹中的内容(Linux→windows) 解压windows的hadoop的bin压缩包 将bin目录里的文件复制粘贴到刚才的hadoop-2.6.5目录里的bin目录里(覆盖重复文件) 粘贴...原创 2019-12-11 09:50:16 · 129 阅读 · 0 评论