使用Struts2和Tomcat实现文件上传到Hadoop

使用Struts2和Tomcat实现文件上传到Hadoop

本文档所采用的版本:

  • Struts版本2.3.14 (对struts2的版本无严格要求,均可)
  • Hadoop版本1.0.4 (对Hadoop的版本无严格要求)
  • Hadoop版本2.5

前提要求:

  • Hadoop已经正确安装,并正在成功运行
  • 对Hadoop的版本无严格要求,仅以Hadoop1.0.4为例说明问题。
  • Hadoop也可以是Hadoop 1.2 版本
  • 如果你安装的是hadoop 2.x 版本,方法类似,只是需要导入的hadoop的包不同,请参考该文档第2部分。

 具体步骤:


1.      添加struts2的jar包到WEB—INF的lib文件夹下

2.      把hadoop开发需要用到的jar包也放到WEB—INF的lib文件夹下。
Hadoop 1.2 以及之前的版本,需要导入的jar包主要包括:

  • hadoop-core-1.0.4.jar
  • commons-lang-2.4.jar
  • commons-configuration-1.6.jar

所需jar包如下图所示:


几点说明:

(1)Struts 2.3.14中使用commons-lang3-3.1.jar,而Hadoop1.0.4中使用commons-lang-2.4.jar,所以需要添加commons-lang-2.4.jar,两者的package名称不同。

(2)如果缺少jar包,运行时会报错,可以根据错误提示找到出错的位置和缺少的jar包。附录A中列出了我碰到的几个错误。

 

Hadoop 2.x (包括Hadoop 2.2, Hadoop 2.4, Hadoop2.5)版本,需要导入的jar包主要包括(本文以Hadoop2.5版本为例):

  • hadoop-common-2.5.1.jar
  • hadoop-hdfs-2.5.1.jar
  • hadoop-auth-2.5.1.jar
  • commons-configuration-1.6.jar
  • commons-lang-2.6.jar
  • commons-logging-1.1.3.jar
  • commons-collections-3.2.1.jar
  • commons-cli-1.2.jar
  • guava-11.0.2.jar
  • slf4j-api-1.7.5.jar
  • slf4j-log4j12-1.7.5.jar
  • log4j-1.2.17.jar
  • protobuf-java-2.5.0.jar

hadoop2.x的上述jar包分布在hadoop目录/share/hadoop/commonhadoop目录/share/hadoop/common/libhadoop目录/share/hadoop/hdfs”目录里。

 

3. 新建一个resources文件夹,在里面新建一个“core-site.xml”,主要说明hadoop namenode的IP地址和端口号,内容如下【其中:hdfs://192.168.100.128:54310的配置信息根据自己的Hadoop配置进行修改。】 :

<configuration>

<property>

   <name>fs.default.name</name>

   <value>hdfs://192.168.100.128:54310</value>

</property>

</configuration>

 

3.      hadoop提供的开发包API可以通过在线文档查看,

http: // hadoop.apache.org/docs/stable/api/index.html   

http:// hadoop.apache.org/docs/current/api/

本次主要使用了以下hadoop类:

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

 

具体编程,可以参考hadoop相关书籍或者网上的文档,例如上传一个文件到HDFS,可以这样写:

       public void copyToHDFS(InputStream inputStream,String pathString){

/* inputStream是文件输入流,pathString是文件在HDFS中存放的位置*/

 

              org.apache.hadoop.conf.Configuration  configuration= new Configuration();

 

              FileSystemfileSystem =null;

              Pathpath=new Path(pathString);

              FSDataOutputStreamoutStream = null;

      

              try{      

                     fileSystem=FileSystem.get(configuration);

                     if(fileSystem== null) {

                            System.out.println("fileSystemis null!");

                            return;

                     }

 

                     outStream= fileSystem.create(path);

                     if(outStream== null) {

                            System.out.println("outis null!");

                            return;

                     }

                    

                     byte[]buffer = new byte[1024];

                     intlength = 0;

                     while((length = inputStream.read(buffer)) > 0) {

                            outStream.write(buffer,0, length);

                     }

          //这一段copy文件流的代码,也可以用下面这种方式实现

//IOUtils.copyBytes(inputStream, outStream,configuration);

 

                     outStream.flush();

                     inputStream.close();

              }catch (Exception e) {

 

                     e.printStackTrace();

              }

              finally{

                     if(outStream!=null)

                            try{

                                   outStream.close();

                                   fileSystem.close();

                            }catch (Exception e2) {

                                   e2.printStackTrace();

                            }

              }

       }

 

4.      用户权限与访问控制问题

(1)    hadoop中有文件访问控制,每个用户只能访问自己文件夹中的文件,文件夹的名字就是你当前系统的登录名。如果你想访问其它用户(例如Bob)的文件,必须在你本机(客户端)新建一个用户名Bob,然后以Bob用户登录,就可以访问用户Bob的文件了。可见,hadoop的文件访问控制还是比较简单的。

(2)    还有一个方法可以更方便的访问和控制hadoop中的文件,就是在hadoop的各个结点都编辑hadoop的conf目录下的配置文件hdfs-site.xml,添加如下内容

<property>

    <name>dfs.permissions</name>

    <value>false</value>

</property>

配置说明:dfs.permissions值为false,就是告诉hadoop去除权限检查。然后重新启动所有结点的HDFS服务。

 

附录A:缺少jar包所提示的错误



查看jar包里面包含的类和文件:

(1)eclipse直接ctrl+shift+t查找这个类,下面会显示类的路径,包括jar名

(2)linux查看jar包内文件命令:   jar  vtf fileName.jar

具体参考:http : //blog.csdn.net/zhang_red/article/details/17142263

(3)如果某个需要使用的jar包没有导入,系统会报错"NoClassDefFoundError",如上图所示,在Linux下面,可以用一段shell脚本来查找缺失的类属于哪个jar包,例如:假如系统提示缺失"com.google.xx.yy.zz"假如你写的脚本名字为“find_lib.sh”, 那么你可以使用  sh find_lib.sh "com.google.xx.yy.zz" 来找到包含类"com.google.xx.yy.zz"的jar包的名字。该查找脚本(“find_lib.sh”)代码如下:

 

#!/usr/bin/env bash

list=`ls`

for file in $list

do

result=`jar vtf $file | grep"$1"`

if [ -n "$result" ]

then echo $file

fi

done

 

该脚本的运行方法:

首先切换到hadoop的lib目录,例如:“/usr/hadoop-2.5.1/share/hadoop/common/lib”目录,

然后把“find_lib.sh”拷贝到该目录,

接着执行:shfind_lib.sh"com.google.xx.yy.zz"

当然,该代码可以写的更好,就不需要把“find_lib.sh”拷贝到该目录,大家自己改改就行,我就是想说明这个意思。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值