BigData - Hadoop
文章平均质量分 64
hadoop 相关
BF-LoneSilverWind
睿智 灵动 从容 淡定
展开
-
0.1 Hadoop 伪分布式搭建 & 测试
伪分布式搭建准备hadoop的tar包下载地址:https://archive.apache.org/dist/hadoop/common/单机的免秘钥ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsassh-copy-id root@192.168.241.210 ~/.ssh/id_rsa.pub把公钥发送给自己登录本机测试ssh root@...原创 2020-01-10 20:59:43 · 120 阅读 · 0 评论 -
0.2 Hadoop完全分布式搭建
搭建完全分布式(练习用)主机相互免秘钥3台主机分别生成自己的秘钥对--语法:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa将自己的公钥拷贝给别人--语法:ssh-copy-id root@192.168.241.211 ~/.ssh/id_rsa.pubssh-copy-id root@192.168.241.212 ~/.ssh/id_rsa...原创 2020-01-10 21:04:21 · 120 阅读 · 0 评论 -
0.3 Hadoop高可用集群搭建
搭建高可用集群搭建Zookeeper准备三台相互免秘钥的虚拟机上传zookeeper 解压 移动解压zookeeper的tar包--语法:tar -zxf zookeeper-3.4.6.tar.gz 移动zookper目录--语法:mv zookeeper-3.4.6 /opt/sxt/修改配置文件zoo.cfg进入zookeeper配置文件目录--语法示例:c...原创 2020-01-10 21:06:42 · 110 阅读 · 0 评论 -
0.4 Hadoop-HA 搭建
搭建Hadoop-HA配置传输 解压 拷贝--语法:--解压hadooptar包tar -zxf hadoop-2.6.5.tar.gz--移动解压文件目录 mv hadoop-2.6.5 /opt/sxt/修改.sh配置文件--进入hadoop配置文件目录cd /opt/sxt/hadoop-2.6.5/etc/hadoop/修改.sh文件的JAVA_HOME配置vi...原创 2020-01-10 21:07:50 · 229 阅读 · 0 评论 -
0.5 Hadoop Yarn环境搭建
搭建高可用集群搭建Zookeeper准备三台相互免秘钥的虚拟机上传zookeeper 解压 移动解压zookeeper的tar包--语法:tar -zxf zookeeper-3.4.6.tar.gz 移动zookper目录--语法:mv zookeeper-3.4.6 /opt/sxt/修改配置文件zoo.cfg进入zookeeper配置文件目录--语法示例:c...原创 2019-12-11 09:22:49 · 127 阅读 · 0 评论 -
HDFS读写数据流程
HDFS读写数据流程写数据流程就是将客户端的数据上传到HDFS写数据宏观流程-客户端向HDFS发送写数据请求 --hdfs dfs -put tomcat.tar.gz /xxxxx/gy -hdfs通过rpc调用nn的create方法 --nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在 ---没有:直接抛出对应的异常 ---有:NN...原创 2020-01-10 21:02:12 · 183 阅读 · 0 评论 -
BigData - Hadoop 内容目录
1.1 Hadoop简介Hadoop组成HDFS分布式存储系统伪分布式搭建伪分布式测试集群节点集群相关HDFS读写数据流程1.2 Hadoop大数据思想搭建完全分布式(练习用)Hadoop 1.x 2.x HA Federation1.3 Hadoop搭建高可用集群搭建Hadoop - HAYarn环境 各节点解析搭建Yarn环境Yarn集群开启&...原创 2019-12-17 11:17:22 · 151 阅读 · 0 评论 -
1.1 Hadoop 简介 & 相关
简介问题起源Google爬取全球的网站,然后计算页面的PageRank要解决的问题这些网站怎么存放这些网站应该怎么计算思想之源Google发布了三篇论文GFS : Google File System – 谷歌文件系统MapReduce :数据计算的方法BigTableHadoop创始人Doug cutting 花费了自己的两年业余时间,用java将论文实...原创 2019-12-16 10:46:37 · 104 阅读 · 0 评论 -
1.2 Hadoop
大数据思想计算向数据靠拢高容错性:多副本模式适合大数据计算:不管多大的数据,在程序员眼中只有128M构建在廉价的机器上Hadoop不支持秒级解决数据Hadoop不适合小文件的存储搭建完全分布式主机相互免秘钥3台主机分别生成自己的秘钥对--语法:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa将自己的公钥拷贝给别人--语法:ss...原创 2019-12-09 21:51:20 · 110 阅读 · 0 评论 -
2.1 MapReduce理论
MapReduce理论MapReduce-map-->映射-reduce-->归纳-mapreduce必须构建在hdfs之上-mapreduce是一种离线计算框架 -在线:实时数据处理 -离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 -mapreduce不会马上得到结果,他会有一定的延时-如果数据量小,使用mapreduce反而不合适,就像...原创 2019-12-11 10:03:47 · 110 阅读 · 0 评论 -
2.1.1 Hadoop map端的 Combiner
1.Combiner是MR程序中Mapper和Reduce之外的一种组件2.Combiner组件的父类就是Reducer3.Combiner和Reducer之间的区别在于运行的位置4.Reducer是每一个接收全局的Map Task 所输出的结果5.Combiner是在MapTask的节点中运行6.每一个map都会产生大量的本地输出,Combiner的作用就是对m...原创 2019-12-25 16:52:17 · 194 阅读 · 0 评论 -
2.2 WordCount项目
Java端项目右键Build Path → Configure Build Path → Librarys → Add Library → User Library → hadoop-lib121获取配置文件从yarn虚拟机中拷贝4个配置文件实例化job对象设置job的主类设置job的名称设置Job的reduce数量设置job的mapper输出key和value的类型设置jo...原创 2019-12-20 20:26:34 · 97 阅读 · 0 评论 -
2.3 MapReduce源码分析01
Map源码-Split以下代码为了思路通顺进行过拆分整理 ---- 重在理解//提交任务,等待任务完成并返回任务状态job.waitForCompletion(true);//判断当前的状态if (state == JobState.DEFINE) { //提交任务 submit(); }//监控任务的运行状态if (verbose) { mon...原创 2019-12-20 20:37:15 · 78 阅读 · 0 评论 -
2.4 MapReduce源码分析02
Map的源码分析//make a task context so we can get the classesorg.apache.hadoop.mapreduce.TaskAttemptContext taskContext = new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job,getT...原创 2019-12-20 20:52:26 · 167 阅读 · 0 评论 -
2.5 MapReduce架构
MapReduce1.xclient客户端发送mr任务到集群客户端的种类有很多种hadoop jar wordcount.jarJobTracker接受客户端的mr任务选择一个资源丰富的,执行对应的任务并且给这个任务分配资源与TaskTracker保持心跳,接受汇报信息TaskTracker保持心跳,汇报资源当分配资源之后,开始在本机分配对应的资源...原创 2019-12-20 20:59:18 · 109 阅读 · 0 评论 -
3.1 Eclipse整合hdfs环境
Eclipse 连接 HDFS开发环境整合解压Hadoop解压hadoop-2.6.5.tar.gz,将解压后的文件夹存放到自己软件目录D:\ProgramFiles替换bin文件夹中的内容(Linux→windows)解压windows的hadoop的bin压缩包将bin目录里的文件复制粘贴到刚才的hadoop-2.6.5目录里的bin目录里(覆盖重复文件)粘贴...原创 2019-12-11 09:50:16 · 134 阅读 · 0 评论