hadoop
时空鱼
有趣的生活,保持快乐-》
继续旅程,做一个快乐的吃货
展开
-
anxiao的学习HDFS的API
package com.czxy.demo02;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;im...原创 2020-01-06 10:23:29 · 1575 阅读 · 1 评论 -
14.Hadoop之MapReduce(二)
Shuffle(混洗)shuffle 输入是key value的 listshuffle 输出是key value的listMapReduce计算任务的步骤第1步:InputFormatInputFormat 到hdfs上读取数据将数据传给Split第2步:Split Split将数据进行逻辑切分将数据传给RR第3步:RRRR:将传入的数据转换成一行一行的数据,输出行首字母偏移...原创 2019-11-18 21:01:57 · 1517 阅读 · 3 评论 -
13.Hadoop之MapReduce(一)计算框架
计算框架:MapReduce计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。并行计算框架一个大的任务拆分成多个小任务,将多个小任务分布到多个节点上。每个节点同时计算Hadoop为什么比传统技术方案快1.分布式存储2.分布式并行计算3.节点横向扩展4.移动程序到数据端5.多个数据副本MapReduce核心思想分而治之,先分后和:将一个大的、复杂的工资或...原创 2019-11-12 22:00:35 · 1489 阅读 · 3 评论 -
12.DataNode多目录配置,开启HDFS权限,小文件合并,HDFS快照
Datanode多目录配置大数据节点数据硬盘的配置方法:多个硬盘。每个硬盘独立挂载硬盘1 /mnt/disk1硬盘2 /mnt/disk2硬盘3 /mnt/disk3硬盘4 /mnt/disk4dfs.datanode.data.dir/mnt/disk1/datanodeDatas,/mnt/disk2/datanodeDatas,/mnt/disk3/datanodeDa...原创 2019-11-12 11:17:28 · 1599 阅读 · 1 评论 -
10.Hadoop使用SNN的FSimage和Edits还原Namenode
1.关闭集群切换目录[root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0关闭集群[root@node01 hadoop-2.6.0-cdh5.14.0]# sbin/stop-all.sh2.删除日志Fsimage 和edits删除editsrm -rf /export/servers/hadoop-2.6.0-cdh...原创 2019-11-06 17:16:38 · 1530 阅读 · 2 评论 -
11.Hadoop之HDFS新增节点与删除节点(六) 重点
HDFS新增节点第一步:由纯净(没有进行过太多操作的)的虚拟机克隆出一台新的虚拟机,作为新的节点第二步:修改新节点的mac地址和ip地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址 删除mac地址行vim /etc/sysconfig/network-scripts/ifcfg-eth0第三步:关闭...原创 2019-11-06 17:14:09 · 1611 阅读 · 1 评论 -
09.Hadoop之HDFS的Fsimage,Edits和SecondaryNameNode工作原理(五)重点
Fsimage,Edits fsimage记录HDFS文件系统的镜像或快照(周期性记录)(此文件相对较小)Edits 记录客户端对集群进行所有的增、删、改、追加 等操作(没有使用Secondary NameNode之前,不是周期性生成)(此文件相对较大)Fsimage Edits作用:用于还原集群上次关闭时的状态。还原时将两个文件加载到内存,检查,合并最终生成一个新的Fsimage。原本的E...原创 2019-11-05 20:35:05 · 1477 阅读 · 0 评论 -
08.Hadoop之HDFS的特征,缺点,高级命令和安全模式(四)重点
HDFS特性 1、海量数据的存储:HDFS可横向扩展,其存储的文件可以支持PB级别的数据 2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复 3、大文件存储:HDFS采用数据块的方式存储数据,将一个大文件切分成一个小文件,分布存储HDFS缺点1、不能做低延迟数据访问:HDFS针对一次性读取大量数据继续了优化,牺牲了延迟性2、不适合大量的小文件存储: ...原创 2019-11-05 15:08:57 · 1489 阅读 · 1 评论 -
07.Hadoop之HDFS的Shell命令操作(三)
(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls: 显示目录信息hdfs dfs -ls /(3)-mkdir:在hdfs上创建目录hdfs dfs -mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshdfs dfs -moveFromLocal /home/Hadoop/a.t...原创 2019-11-05 15:07:02 · 1463 阅读 · 0 评论 -
06.Hadoop之HDFS文件读写流程(二) 小白必看
HDFS文件读写流程 (重点)1、Client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否存在,父目录是否存在,返回是否可以上传2、Client请求第一个block该传输到哪些DataNode服务器上3、NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C4、Client请求3台...原创 2019-11-04 20:54:00 · 1522 阅读 · 0 评论 -
05.Hadoop之HDFS基本介绍(一) 小白必看
HDFS是什么?1:是Hadoop Distribut File System的简称2:是hadoop分布式文件系统3:是hadoop核心组件之一,作为最底层的分布式存储服务而存在分布式文件系统解决大数据存储问题。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS使用Master和Slave结构对集群...原创 2019-11-04 20:51:34 · 1534 阅读 · 0 评论 -
03.大数据集群安装部署(一) linux环境安装 小白必看
准备一台服务器进行下面操作之后再克隆或者克隆之后进行下面操作然后把相对应的文件远程连接复制到其他服务器中(拷贝多个的时候 scp -r)注意:ip和主机名之后再设置更这个配置里面一样就行了第一步:准备一台服务器克隆第二步:远程连接打开selinux文件vim /etc/selinux/config第三步:关闭防火墙,设置开启不自启/etc/init.d/iptables sto...原创 2019-10-31 21:12:45 · 1524 阅读 · 5 评论 -
04.大数据集群安装部署 (二 ) 安装hadoop 小白必看
(友情提示以下下面创建的路径跟我写的一样操作起来更便捷,同时主机名设置成node01,node02,node03)第一步:上传压缩包并解压文件创建一个文件存放压缩包:mkdir -p /export/soft创建一个文件夹存放解压包:mkdir -p /export/servers解压文件到指定文件中tar -zxvf hadoop-2.6.0-cdh5.14.0.tar....原创 2019-11-04 09:43:23 · 1542 阅读 · 3 评论