关于Hadoop运行java的详解

最新推荐文章于 2024-08-03 22:24:52 发布

csdn_FTD

最新推荐文章于 2024-08-03 22:24:52 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签： hadoop java

本文链接：https://blog.csdn.net/CSDN_FTD/article/details/52943014

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

从 hadoop URL 读取数据

1. 自定义编写URLCat方法：

import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;

public class URLCat{
        static {
                URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
        }

        public static void main(String[] args) throws Exception {
                InputStream in = null;
                try {
                        in = new URL(args[0]).openStream();
                        IOUtils.copyBytes(in, System.out, 4096, false);
                } finally {
                        IOUtils.closeStream(in);
                }
        }
}

代码说明：这里采用的方法是通过FsUrlStreamHandlerFactory实例调用java.net.URL的setURLStreamHandlerFactory方法。每个java虚拟机只能调用一次这个方法，因此通常在静态中调用。

准备工作：
1.开启集群，我用的是一个master，两个slave的分布式
2.我的用户是hdfs，因此在/home/hdfs目录下创建文件夹fileTest
3.进入到文件夹fileTest，创建两个txt文本，名字自定义
4.将文件中写入字符串，echo “Hello World”>file1.txt,echo “Hello hadoop”>file2.txt
5.在HDFS上创建输入文件夹，如果不指定路径则自动创建到根目录hadoop fs -mkdir -p input
6.上传本地文件到集群input目录下
hadoop fs -put ~/fileTest/file*.txt input

运行步骤：
1. 用HelloWorld测试环境运行（保证环境可用）
2. 将

export CLASSPATH=.:/var/local/hadoop/hadoop-2.6.0/share/hadoop/common/lib/*:/var/local/hadoop/hadoop-2.6.0/share/hadoop/common/hadoop-common-2.6.0.jar

添加到/etc/profile中，source /etc/profile 使其生效
common包负责java的编译运行，因此找到common包是主要目的
3. 运行命令：
hadoop jar jar文件名类名路径名

#编译java文件，生成class文件
javac   URLCat.java
jar  cvf  URLCat.jar  URLCat.class
hadoop jar 类名.jar 类名 hdfs://192.168.253.131:9000/文件路径

csdn_FTD

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于Hadoop运行java的详解

从 hadoop URL 读取数据1. 自定义编写URLCat方法：import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactor
复制链接

扫一扫

专栏目录