![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
Nicht_Sehen
这个作者很懒,什么都没留下…
展开
-
【Hadoop】序列化
序列化指把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输Hadoop序列化特点:1)紧凑:高效使用存储空间2)快速:读写数据的额外开销小3)可扩展:随着通信协议的升级而升级4)互操作:支持多语言的交互自定义实现序列化接口:(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造public FlowB...原创 2020-03-10 10:12:21 · 145 阅读 · 0 评论 -
【Hadoop】MapReduce概述
MapReduce定义Mapreduce是一个分布式运算程序的编程思想,是用户开发“基于Hadoop的数据分析应用”的核心框架,其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上MapReduce优缺点:优点a. MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序。b. 良好的扩展性当你的技术资...原创 2020-03-10 10:10:23 · 276 阅读 · 1 评论 -
【Hadoop】给集群配置新节点/退役节点
服役新数据节点环境准备(1)在hadoop133主机上再克隆一台hadoop134主机(2)修改IP地址和主机名称(3)删除原来HDFS文件系统留存的文件(/opt/module/hadoop-2.7.2/data和log)(4)source一下配置文件服役新节点具体步骤(配置前确定其他节点的hosts和slaves里有新节点的映射)(1)直接启动DataNode,即可关联到...原创 2020-03-02 23:02:02 · 368 阅读 · 0 评论 -
【Hadoop】DataNode工作机制
DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删...原创 2020-03-02 22:54:07 · 172 阅读 · 0 评论 -
【hadoop】NameNode故障处理
NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录kill -9 NameNode进程删除NameNode存储的数据[hadoop@hadoop131 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*拷贝S...原创 2020-03-02 22:50:46 · 573 阅读 · 0 评论 -
【Hadoop】NameNode和SecondaryNameNode
NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsIm...原创 2020-03-02 22:45:21 · 233 阅读 · 0 评论 -
【Hadoop】HDFS的数据流程
HDFS数据写入流程客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。客户端通过FSDataOutputStrea...原创 2020-03-02 09:22:58 · 264 阅读 · 0 评论 -
【Hadoop】HDFS客户端操作
HDFS客户端环境准备1.拷贝文件2.配置HADOOP_HOME环境变量3. 配置Path环境变量4.创建一个Maven工程HdfsClientDemo5.导入相应的依赖坐标+日志添加 <dependencies> <dependency> <groupId>junit</groupId> <artifa...原创 2020-03-01 20:56:52 · 260 阅读 · 0 评论 -
【Hadoop】HDFS的Shell操作
基本语法:bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类全部命令:[root@hadoop131 hadoop-2.7.2]# bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-c...原创 2020-03-01 20:43:32 · 245 阅读 · 0 评论 -
【Hadoop】HDFS概述
HDFS 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于储存文件,通过目录树来定位文件;其次,它是 分布式 的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。HDFS 优缺点优点:1)高容错性数据自动保存多个副本,某个副本丢失以后,它可以自动恢复...原创 2020-03-01 20:40:17 · 252 阅读 · 0 评论 -
【Hadoop】完全分布式搭建
准备3台客户机(已克隆好并修改好网络配置且配置好jdk与hadoop环境)详见【Hadoop】环境配置【Linux】虚拟机克隆及网络配置免密登陆配置(1)生成公钥和私钥:然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)(2)将公钥拷贝到要免密登录的目标机器上测试:对三台客户机进行同样的配置编写集群分发脚本xsync(1)在/u...原创 2020-03-01 13:36:24 · 429 阅读 · 0 评论 -
【Hadoop】伪分布式搭建
克隆虚拟机要克隆的虚拟机环境配置见【Hadoop】环境配置配置集群配置:core-site.xml写入:配置hadoop-env.sh配置hdfs-site.xml启动格式化NameNode(第一次 格式化)格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删...原创 2020-03-01 13:07:11 · 211 阅读 · 0 评论 -
【Hadoop】环境配置
CentOS 6.8JDK 1.8Hadoop 2.7.2VM 15.5克隆虚拟机详见【Linux】虚拟机克隆及网络配置前期准备修改映射 vim /etc/hosts修改hadoop用户权限创建software,module文件夹修改文件夹所属者拷贝文件(使用xftp)配置JDK解压文件配置环境变量添加内容:source一下测试:发现...原创 2020-03-01 12:45:55 · 221 阅读 · 0 评论 -
【Hadoop】入门介绍
Hadoop 优势高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失高扩展性:在集群间分配任务数据,可方便扩展节点高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度高容错性:能够自动将失败的任务重新分配Hadoop 1.x和Hadoop 2.x 区别在Hadoop 1.x时代,Hadoop中的...原创 2020-03-01 12:31:41 · 161 阅读 · 0 评论