项目框架介绍和Hdfs的API操作

项目框架介绍和Hdfs的API操作

任务一:项目框架介绍和Hdfs的API操作

导入

hadoop-2.7.1/share/hadoop/mapreduce    下的所有jar包(子文件夹下的jar包不用)
hadoop-2.7.1/share/hadoop/hdfs        /下的hadoop-hdfs-2.7.1.jar
hadoop-2.7.1/share/hadoop/yarn        下的所有jar包(子文件夹下的jar包不用)
hadoop-2.7.1/share/hadoop/common        下的hadoop-common-2.7.1.jar
hadoop-2.7.1/share/hadoop/common/lib    下的slf4j-api-1.7.10.jar,slf4j-log4j12-1.7.10.jar
hadoop-2.7.1/share/hadoop/tools        下的所有jar包


 

任务描述

  该实训任务主要是完成Java工程的创建以及相关的设置,并掌握Hdfs的API操作,包括在Hdfs上创建目录,上传文件到Hdfs,下载Hdfs文件,删除Hdfs文件。

任务目标

  • 掌握Java工程的创建的步骤
  • 掌握Hdfs的API操作

任务分析

  HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础篇,为了实现本地与HDFS的文件传输,主要借助Eclipse开发环境,通过java编程实现了远程HDFS的文件创建,上传,下载,删除等。

  其实对HDSF的文件操作主要有两种方式:命令行的方式和JavaAPI的方式。命令行的方式简单直接,但是必须要求本地机器也是在Linux系统中已经安装了hadoop,这对习惯用windows系统的用户来说不得不安装虚拟机,然后再在虚拟机上安装Linux系统,这是一种挑战。同时windows系统与虚拟机上安装的Linux系统进行文件传输也是要借助一些工具才可以实现。

  为了实现以上所遇到诸如系统不一致,手动输入命令等的困扰,我们选择Java API的方式,有专门的API函数,可以在非Hadoop机器上实现访问,同时与系统无关。Hadoop中关于文件操作类基本上全部是在’org.apache.hadoop.fs’包中,Hadoop类库中最终面向用户提供的接口类是FileSystem,该类封装了几乎所有的文件操作,例如CopyToLocalFile、CopyFromLocalFile、mkdir及delete等。综上基本上可以得出操作文件的程序库框架:

 
  1. operator( ) {
  2.  
  3. 得到Configuration对象
  4. 得到FileSystem对象
  5. 进行文件操作
  6.  
  7. }

  本次实训练习仅包含常用API如CopyToLocalFile、CopyFromLocalFile、mkdir及delete等,更多hdfs的APi的使用可以参考官方API文档 http: // hadoop.apache.org /docs/r2.7.5/api/index.html

实训环境

  • 操作系统:Ubuntu 16.04.3
  • hadoop版本:hadoop-2.7.3
  • hive版本:apache-hive-1.2.2-bin
  • jdk版本:jdk1.8.0_73

任务实施

Hdfs的API操作

启动hadoop集群,并查看进程

使用eclipse创建工程,找到桌面的eclipse图标,双击图标打开eclipse,设置默认的工作空间,其操作界面如下图所示。

 

 

在package Explorer窗口中点击右键 — new — Project,创建一个java工程。

在弹出的窗口中进行如下操作:在下图第一个红框的位置,输入项目名,第二个红框的位置设置使用的jre/jdk版本,完成后直接点击Finish(环境中默认eclipse的jre/jdk版本无法使用,需根据后续步骤设置)

在第二个红框下方点击Configure JREs…后弹出下面的窗口。

点击右侧Add,弹出添加窗口

选中下图的Standard VM后点击Next,在文件系统中找到相应路径下的jdk

配置完成后点Finish

最后即可选择jre/jdk版本为jdk1.8.0_73

在工程下的src目录上点击右键 — new — package,创建一个包。

在弹出的窗口中进行如下操作:在下图的红框位置输入要创建的包名,完成后直接点击Finish。

在工程下的包目录上点击右键 — new — class,创建一个类。

在弹出的窗口中进行如下操作:在下图的红框位置输入要创建的类名,完成后直接点击Finish。

为了使用hdfsAPI进行变成,引入项目相关的依赖包hadoop,从桌面上打开文件系统,进入/simpleware_dateset/tmp/datas/hadoop/lib/目录,查看项目依赖的jar包。

选中该目录下所有jar包,点击右键复制,如下图所示

回到eclipse程序中在项目跟文件夹下点击右键—new-Folder,创建一个新文件夹

在弹出的窗口中进行如下操作:在下图的红框位置输入要创建的文件夹名,完成后直接点击Finish。

在新文件夹的目录上点击右键粘贴(Paste),将复制的文件粘贴到该目录下。

点击文件夹前的小三角符号,查看文件是否被复制并粘贴成功。

点击上数第一个jar包,将垂直滚动条拖动到最下面,按住shift选中最后一个jar17包,即完成jar包的全选,并点击右键—build path—add to build path

发现jar包被添加到Referenced Libraries目录下,即完成依赖jar包的导入。

环境准备完毕,接下来进行代码的编写,在之前创建的 HDFSTEST.java 文件下编写代码,先编写一个main方法作为程序的入口。

编写一个在HDFS创建目录的方法。

编写一个上传文件到HDFS的方法。

编写一个从HDFS下载文件的方法。

编写一个从HDFS下载文件的方法。

编写一个判断存在并删除的方法。

编写main执行逻辑。

具体的HDFS的文件创建,上传,下载,删除等程序设计如下:

 
  1. package com.simple.hdfstest;
  2.  
  3. import java.io.IOException;
  4.  
  5. import org.apache.hadoop.conf.Configuration;
  6. import org.apache.hadoop.fs.FileSystem;
  7. import org.apache.hadoop.fs.Path;
  8.  
  9. public class HDFSTest {
  10.  
  11. /**
  12. *新建目录
  13. *
  14. * @param dsta
  15. * @param conf
  16. * @return
  17. */
  18. public static boolean CreatDir(String dst, Configuration conf) {
  19. Path dstPath = new Path(dst);
  20. try {
  21. FileSystem dhfs = FileSystem.get(conf);
  22. dhfs.mkdirs(dstPath);
  23. } catch (IOException ie) {
  24. ie.printStackTrace();
  25. return false;
  26. }
  27. return true;
  28. }
  29.  
  30. /**
  31. * 上传文件
  32. *
  33. * @param src
  34. * @param dst
  35. * @param conf
  36. * @return
  37. */
  38. public static boolean putToHDFS(String src, String dst, Configuration conf) {
  39. Path dstPath = new Path(dst);
  40. try {
  41. FileSystem hdfs = dstPath.getFileSystem(conf);
  42. hdfs.copyFromLocalFile(false, new Path(src), dstPath);
  43. } catch (IOException ie) {
  44. ie.printStackTrace();
  45. return false;
  46. }
  47. return true;
  48. }
  49.  
  50. /**
  51. * 下载文件
  52. *
  53. * @param src
  54. * @param dst
  55. * @param conf
  56. * @return
  57. */
  58. public static boolean getFromHDFS(String src, String dst, Configuration conf) {
  59. Path dstPath = new Path(dst);
  60. try {
  61. FileSystem dhfs = dstPath.getFileSystem(conf);
  62. dhfs.copyToLocalFile(false, new Path(src), dstPath);
  63. } catch (IOException ie) {
  64. ie.printStackTrace();
  65. return false;
  66. }
  67. return true;
  68. }
  69.  
  70. /**
  71. * 删除文件
  72. *
  73. * @param path
  74. * @param conf
  75. * @return
  76. */
  77. public static boolean checkAndDel(final String path, Configuration conf) {
  78. Path dstPath = new Path(path);
  79. try {
  80. FileSystem dhfs = dstPath.getFileSystem(conf);
  81. if (dhfs.exists(dstPath)) {
  82. dhfs.delete(dstPath, true);
  83. } else {
  84. return false;
  85. }
  86. } catch (IOException ie) {
  87. ie.printStackTrace();
  88. return false;
  89. }
  90. return true;
  91. }
  92.  
  93.  
  94. public static void main(String[] args) {
  95. boolean status = false;
  96. String dst1 = 'hdfs://localhost:9000/hdfs/new';
  97. Configuration conf = new Configuration();
  98.  
  99. conf.set('fs.default.name', 'hdfs://master:9000'); // 'hdfs://master:9000'
  100.  
  101. status = CreatDir(dst1, conf);
  102. System.out.println('CreatDir -- status=' + status);
  103.  
  104. String dst = 'hdfs://localhost:9000/hdfs';
  105. String src = 'hello.txt';
  106.  
  107. status = putToHDFS(src, dst, conf);
  108. System.out.println('putToHDFS -- status=' + status);
  109.  
  110. src = 'hdfs://localhost:9000/hdfs/hello.txt';
  111. dst = '/data/bigdata/datas/hdfs/';
  112. status = getFromHDFS(src, dst, conf);
  113. System.out.println('getFromHDFS -- status=' + status);
  114.  
  115. dst = 'hdfs://localhost:9000/hdfs/hello.txt';
  116. status = checkAndDel(dst, conf);
  117. System.out.println('checkAndDel -- status=' + status);
  118. }
  119. }

由于需要上传一个文件用于测试,在工程根目录下,右键—new—file,创建一个新文件。

在弹出的窗口中进行如下操作:在下图的红框位置输入要创建的文件名,完成后直接点击Finish。


编辑文件内容,并使用ctrl+s快捷键进行保存。

 

从桌面打开一个Terminal(xfce终端),输入命令jps查看Hdfs服务是否启动。(若没有启动可使用$HADOOP_HOME/sbin/start-all.sh 启动)

在eclipse中,点击如图所示的三角符号运行HDFSTest。

执行结果如下图所示即为程序执行正常。

在Terminal中,查看文件是否被正确下载。
进入/data/bigdata/datas/目录下查看hdfs文件的内容是否正确。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值