【大数据各平台组件搭建使用精进】hdfs的maven操作（4）

星欲冷hx

于 2022-09-26 16:11:42 发布

阅读量501

点赞数 1

文章标签： hadoop 大数据 java hdfs maven

本文链接：https://blog.csdn.net/hx1156477702/article/details/127053314

版权

在完成hadoop平台的搭建之后，我相信大家一定想做一个简单的项目，我这里就和大家一起来做两个小项目hdfs和MapReduce的项目，mapreduce的项目在下个帖子讲，我们先学习hdfs使用maven实现单词计数。

有现在更要hadoop部署的流程的在我主页（1）（2）（3）

创建相关的目录

原来的jdk

是好的

这里指的是本机的jdk，也是java环境，不同于虚拟机

下载并安装配置maven

配置环境变量

去测试maven是否配置成功

下载并安装idea并配置idea的maven环境

idea是java集成环境，相信大家都不陌生，当然还有eclipse，我也用。但是用起来还是idea更舒服一点。

编写一个maven项目，测试jdk、maven和idea

启动idea，新建一个maven项目

maven各信息相关介绍

pom文件修改

建立文件层级结构

新建一个包

新建一个类

输入代码，测试helloworld

运行，查看结果

配置国内maven镜像库

之前用的国外的maven镜像

这里打错了

5.1.16

后来改了

但因默认仓库在国外，下载比较慢，需要修改maven仓库为国内的镜像

搜索阿里的仓库镜像

修改maven仓库的存放位置，默认在c盘下，容易造成c盘空间满，一般放在其他盘下

修改idea使用国内maven镜像仓库搭建项目环境

案例——使用Java API操作HDFS

新建一个maven项目

修改项目的maven仓库使用国内镜像

修改pom.xml文件，添加pom依赖

只添加一个依赖即可

初始化客户端对象

自己新建

启动hadoop和yarn集群

创建文件夹，删除文件夹（代码在后面有）

集群上传和下载文件

最后在集群上上传和下载文件

报错的环境变量

做到这里发现环境变量报错，进行修改

这下再运行程序

package cn.edu.hgu.hadoop;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class HDFS_CRUD {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://hadoop001:9000");
        System.setProperty("HADOOP_USER_NAME","root");
        FileSystem fs = FileSystem.get(conf);
        System.out.println(fs);
        // fs.mkdirs(new Path("/a"));
      //  fs.delete(new Path("/b"));

        Path src = new Path("e:/data/a.txt");
        Path dst = new Path("/test");
        fs.copyFromLocalFile(src,dst);
//
        //xaizai
        Path src1 = new Path("/test/a.txt");
        Path dst1 = new Path("e:/data/a.txt.bak");
        fs.copyToLocalFile(src1,dst1);
        fs.close();

    }

}