使用Struts2和Tomcat实现文件上传到Hadoop

最新推荐文章于 2021-02-12 23:53:15 发布

bikun

最新推荐文章于 2021-02-12 23:53:15 发布

阅读量1.1k

点赞数

分类专栏： hadoop开发文章标签： hadoop hdfs java web tomcat 云存储

本文链接：https://blog.csdn.net/bikun/article/details/40742205

版权

hadoop开发专栏收录该内容

3 篇文章 0 订阅

订阅专栏

使用Struts2和Tomcat实现文件上传到Hadoop

本文档所采用的版本：

Struts版本2.3.14 （对struts2的版本无严格要求，均可）
Hadoop版本1.0.4 （对Hadoop的版本无严格要求）
Hadoop版本2.5

前提要求：

Hadoop已经正确安装，并正在成功运行
对Hadoop的版本无严格要求，仅以Hadoop1.0.4为例说明问题。
Hadoop也可以是Hadoop 1.2 版本
如果你安装的是hadoop 2.x 版本，方法类似，只是需要导入的hadoop的包不同，请参考该文档第2部分。

具体步骤：

1. 添加struts2的jar包到WEB—INF的lib文件夹下

2. 把hadoop开发需要用到的jar包也放到WEB—INF的lib文件夹下。
Hadoop 1.2 以及之前的版本，需要导入的jar包主要包括：

hadoop-core-1.0.4.jar
commons-lang-2.4.jar
commons-configuration-1.6.jar

所需jar包如下图所示：

几点说明：

（1）Struts 2.3.14中使用commons-lang3-3.1.jar，而Hadoop1.0.4中使用commons-lang-2.4.jar，所以需要添加commons-lang-2.4.jar，两者的package名称不同。

（2）如果缺少jar包，运行时会报错，可以根据错误提示找到出错的位置和缺少的jar包。附录A中列出了我碰到的几个错误。

Hadoop 2.x (包括Hadoop 2.2, Hadoop 2.4, Hadoop2.5)版本，需要导入的jar包主要包括（本文以Hadoop2.5版本为例）：

hadoop-common-2.5.1.jar
hadoop-hdfs-2.5.1.jar
hadoop-auth-2.5.1.jar
commons-configuration-1.6.jar
commons-lang-2.6.jar
commons-logging-1.1.3.jar
commons-collections-3.2.1.jar
commons-cli-1.2.jar
guava-11.0.2.jar
slf4j-api-1.7.5.jar
slf4j-log4j12-1.7.5.jar
log4j-1.2.17.jar
protobuf-java-2.5.0.jar

hadoop2.x的上述jar包分布在“hadoop目录/share/hadoop/common”、“hadoop目录/share/hadoop/common/lib”、“hadoop目录/share/hadoop/hdfs”目录里。

3. 新建一个resources文件夹，在里面新建一个“core-site.xml”，主要说明hadoop namenode的IP地址和端口号，内容如下【其中：hdfs://192.168.100.128:54310的配置信息根据自己的Hadoop配置进行修改。】：

<name>fs.default.name</name>

</property>

</configuration>

3. hadoop提供的开发包API可以通过在线文档查看，

http: // hadoop.apache.org/docs/stable/api/index.html

http:// hadoop.apache.org/docs/current/api/

本次主要使用了以下hadoop类：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

具体编程，可以参考hadoop相关书籍或者网上的文档，例如上传一个文件到HDFS，可以这样写：

public void copyToHDFS(InputStream inputStream,String pathString){

/* inputStream是文件输入流，pathString是文件在HDFS中存放的位置*/

org.apache.hadoop.conf.Configuration configuration= new Configuration();

FileSystemfileSystem =null;

Pathpath=new Path(pathString);

FSDataOutputStreamoutStream = null;

try{

fileSystem=FileSystem.get(configuration);

if(fileSystem== null) {

System.out.println("fileSystemis null!");

return;

}

outStream= fileSystem.create(path);

if(outStream== null) {

System.out.println("outis null!");

return;

}

byte[]buffer = new byte[1024];

intlength = 0;

while((length = inputStream.read(buffer)) > 0) {

outStream.write(buffer,0, length);

}

//这一段copy文件流的代码，也可以用下面这种方式实现

//IOUtils.copyBytes(inputStream, outStream,configuration);

outStream.flush();

inputStream.close();

}catch (Exception e) {

e.printStackTrace();

}

finally{

if(outStream!=null)

try{

outStream.close();

fileSystem.close();

}catch (Exception e2) {

e2.printStackTrace();

}

4. 用户权限与访问控制问题

（1） hadoop中有文件访问控制，每个用户只能访问自己文件夹中的文件，文件夹的名字就是你当前系统的登录名。如果你想访问其它用户（例如Bob）的文件，必须在你本机（客户端）新建一个用户名Bob，然后以Bob用户登录，就可以访问用户Bob的文件了。可见，hadoop的文件访问控制还是比较简单的。

（2）还有一个方法可以更方便的访问和控制hadoop中的文件，就是在hadoop的各个结点都编辑hadoop的conf目录下的配置文件hdfs-site.xml，添加如下内容

<name>dfs.permissions</name>

<value>false</value>

</property>

配置说明：dfs.permissions值为false，就是告诉hadoop去除权限检查。然后重新启动所有结点的HDFS服务。

附录A：缺少jar包所提示的错误

查看jar包里面包含的类和文件:

（1）eclipse直接ctrl+shift+t查找这个类，下面会显示类的路径，包括jar名

（2）linux查看jar包内文件命令: jar vtf fileName.jar

具体参考：http : //blog.csdn.net/zhang_red/article/details/17142263

（3）如果某个需要使用的jar包没有导入，系统会报错"NoClassDefFoundError"，如上图所示，在Linux下面，可以用一段shell脚本来查找缺失的类属于哪个jar包，例如：假如系统提示缺失"com.google.xx.yy.zz"，假如你写的脚本名字为“find_lib.sh”，那么你可以使用 sh find_lib.sh "com.google.xx.yy.zz" 来找到包含类"com.google.xx.yy.zz"的jar包的名字。该查找脚本（“find_lib.sh”）代码如下：

#!/usr/bin/env bash

list=`ls`

for file in $list

result=`jar vtf $file | grep"$1"`

if [ -n "$result" ]

then echo $file

done

该脚本的运行方法：

首先切换到hadoop的lib目录，例如：“/usr/hadoop-2.5.1/share/hadoop/common/lib”目录，

然后把“find_lib.sh”拷贝到该目录，

接着执行：shfind_lib.sh"com.google.xx.yy.zz"

当然，该代码可以写的更好，就不需要把“find_lib.sh”拷贝到该目录，大家自己改改就行，我就是想说明这个意思。

bikun

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用Struts2和Tomcat实现文件上传到Hadoop

使用Struts2和Tomcat实现文件上传到Hadoop本文档所采用的版本：ü Struts版本2.3.14 （对struts2的版本无严格要求，均可）ü Hadoop版本1.0.4 （对Hadoop的版本无严格要求）ü Hadoop版本2.5前提要求：ü Hadoop已经正确安装，并正在成功运行ü 对Hadoop的版本无严格要求，仅以Hadoop1.0.4为例说明问
复制链接

扫一扫