拉取hadoop集群上的hdfs文件

最新推荐文章于 2023-06-27 16:47:52 发布

stevesun13

最新推荐文章于 2023-06-27 16:47:52 发布

阅读量3.4k

点赞数

本文链接：https://blog.csdn.net/stevesun13/article/details/54915387

版权

本文介绍了如何利用Apache Hadoop的API来实现从Hadoop集群中拉取HDFS文件，同时提到了因Hadoop包依赖繁多可能导致的排包问题。

摘要由CSDN通过智能技术生成

从hadoop集群拉取hdfs文件是一个常见的需求，基于org.apache.hadoop即可做到。

但是hadoop包有个明显的缺点是引用太多，经常需要排包，包括但不限于httpclient,servlet,slf4j,tomcat等等

@Service
public class HdfsClient{

    private static final Logger logger = LoggerFactory.getLogger(HdfsClient.class);
    private FileSystem fileSystem;
    private Configuration conf;

    public synchronized void init() throws Exception {

        String proxy = "x.x.x.x:x";
        String username = "xxx";
        boolean useProxy = false;

        conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://argo");
        conf.set("dfs.web.ugi", "hdfs,hadoop");
        conf.set("dfs.nameservices", "argo");
        conf.set("dfs.ha.namenodes.argo", "nn1,nn2");
        conf.set("dfs.namenode.rpc-address.argo.nn1", "xxx:x");
        conf.