Hadoop数据流原理+实例代码

从HDFS中读取文件test.txt

前提:启动Hadoop的所有组件

⑴准备test.txt

查询tetst.txt文件是否存在:hadoop fs -ls hdfs://localhost/test/  

注意:本人的test.txt文件在/test目录下,根据自己的实际查找,如果没有则创建一个。如下是test.txt文件中的内容

[ld@localhost /]$ hadoop fs -cat hdfs://localhost/test/test.txt
hello world 
===========
     -- name : liudong 

⑵编写代码(在windows下的eclipise中完成,注意jar包的导入)

package com.dong.hello;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

public class FileSystemCat {
	
	public static void main(String[] args) throws IOException{
		//从HDFS上读取test.txt文件,显示到终端
		String uri="hdfs://localhost/test/test.txt";
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(URI.create(uri), conf);
		InputStream in = null;
                try{
		in = fs.open(new Path(uri));
		IOUtils.copyBytes(in, System.out, 4096,false);
                }finally{
		IOUtils.closeStream(in);
                }
	
	}
	
		
}

 ⑶导出成jar包的形式(这里一定要注意windows中JDK的版本和Hadoop中的JDK的版本一致,不然不能运行)

⑷上传到hadoop所在的主机(这里我的是Centos)(使用软件为WinSCP)

 ⑸在Centos中使用hadoop命令进行执行

[ld@localhost ~]$ hadoop jar hadoopHello.jar 
hello world 
===========
     -- name : liudong 

(如果现实没有找到主类,则注意HADOOP_CLASSPATH的配置,或者jar包)

Hadoop数据流原理:

客户端通过调用FileSystem对象的open()方法打开目标文件,从HDFS的角度出发:

DistributedFileSystem通过使用RFC调用namenode,来确定文件起始块的位置,namenode返回存有该该块副本的datanode地址,如果客户端本身就是一个datanode,那客户端会从保存有相应数据块复本的本地datanode读取数据。DistributedFileSystem类返回一个FSDataInputStream对象让客户端以便读取数据,FSDataInputStream类封装DFSInputStream对象,DSFInputStream对象管理着datanode,namenode的I/O.

然后客户端对输入流调用read()方法,存储着文件起始块的datanode地址的DFSInputStream随即连接距离最近的文件中第一个块所在的datanode.通过对数据流反复调用read()方法,可以将数据从datanode传输到客户端,当到达块的末端时,DFSInputStream关闭与该datanode的连接,寻找下一个块的最佳的datanode,当客户端完成读取,就对FSDataInputStream调用close()方法。

在读取的过程,如果DFSInputStream在于datanode出错,会尝试从这个块最近的datanode读取数据,同时记住这个故障datanode,保证以后不会反复读取该节点上后续的块。

客户端通过调用create()方法来创建文件,从HDFS的角度出发:

DistributedFileSystem对namenode创建一个RFC调用,在文件系统的命名空间中新建一个文件,此时该文件中还没有相应的数据块,namenode执行各种不同的检查来确保这个文件不存在以及客户端是否创建文件的权限,如果这些检查通过,namenode就会为创建新文件记录一条记录,否则创建失败,并像客户端抛出一个IOException异常。

DistributedFileSystem向客户端返回一个FSDataOutputStream对象,由此客户端可以开始写入数据,在客户端写入数据时,DFSOutputStream将它分成一个个数据包,并且写入内部队列,称为数据队列,DataStreamer处理数据队列,它负责挑选出合适存储数据复本的一组datanode,并以此来要求namenode分配新的数据块,这一组datanode构成一个管线,假设复本数为3,所以管线中有3个节点,DataStreamer将数据包流式传输到管线中第一个datanode,该datanode存储数据包并将它发送到管线中第二个datanode,同样,第二个datanode存储数据包并且发送到管线中第三个datanode。

同使用DFSOutputStream维护一个内部数据包队列来等待datanode的收到确认回执,称为“确认队列”,收到管道中所有datanode确认信息后,该数据包才会从确认队列删除。如果datanode在数据写入的时候发生故障,则先关闭管线,确认把队列中所有数据包都添加回数据队列的最前端,以确保故障节点下游的datanode不会漏掉任何一个数据包。同时将正常datanode的标识传送给namenode,以便故障datanode在恢复后可以删除存储在部分数据块。从管线中删除故障datanode,基于两个正常datanode构建一个新的管线,剩下的数据块写入管线中正常的datanode,namenode注意到块副本量不足时,会在另一个节点上创建新的复本。客户端完成数据的写入后,对数据流调用close()方法。

 

 

 

 

 

 

 


 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值