在完成hadoop平台的搭建之后,我相信大家一定想做一个简单的项目,我这里就和大家一起来做两个小项目hdfs和MapReduce的项目,mapreduce的项目在下个帖子讲,我们先学习hdfs使用maven实现单词计数。
有现在更要hadoop部署的流程的在我主页(1)(2)(3)
创建相关的目录
原来的jdk
是好的
这里指的是本机的jdk,也是java环境,不同于虚拟机
下载并安装配置maven
配置环境变量
去测试maven是否配置成功
下载并安装idea并配置idea的maven环境
idea是java集成环境,相信大家都不陌生,当然还有eclipse,我也用。但是用起来还是idea更舒服一点。
编写一个maven项目,测试jdk、maven和idea
启动idea,新建一个maven项目
maven各信息相关介绍
pom文件修改
建立文件层级结构
新建一个包
新建一个类
输入代码,测试helloworld
运行,查看结果
配置国内maven镜像库
之前用的国外的maven镜像
这里打错了
5.1.16
后来改了
但因默认仓库在国外,下载比较慢,需要修改maven仓库为国内的镜像
搜索阿里的仓库镜像
修改maven仓库的存放位置,默认在c盘下,容易造成c盘空间满,一般放在其他盘下
修改idea使用国内maven镜像仓库搭建项目环境
案例——使用Java API操作HDFS
新建一个maven项目
修改项目的maven仓库使用国内镜像
修改pom.xml文件,添加pom依赖
只添加一个依赖即可
初始化客户端对象
自己新建
启动hadoop和yarn集群
创建文件夹,删除文件夹(代码在后面有)
集群上传和下载文件
最后在集群上上传和下载文件
报错的环境变量
做到这里发现环境变量报错,进行修改
这下再运行程序
package cn.edu.hgu.hadoop;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
public class HDFS_CRUD {
public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://hadoop001:9000");
System.setProperty("HADOOP_USER_NAME","root");
FileSystem fs = FileSystem.get(conf);
System.out.println(fs);
// fs.mkdirs(new Path("/a"));
// fs.delete(new Path("/b"));
Path src = new Path("e:/data/a.txt");
Path dst = new Path("/test");
fs.copyFromLocalFile(src,dst);
//
//xaizai
Path src1 = new Path("/test/a.txt");
Path dst1 = new Path("e:/data/a.txt.bak");
fs.copyToLocalFile(src1,dst1);
fs.close();
}
}
在指定文件夹生成文件结果就代表成功
如果需要私信我就行,我会及时回复,但是我建议自己敲一遍加深理解。
到这里hdfs的maven项目就结束了,主要工程就在maven的调试,项目连接和代码十分简单
大家只要做到上面的新建删除文件夹然后改完环境变量就基本没有问题。
接下来一节(5)是mapreduce的maven操作,如有需要请移步主页。
如有侵权,请联系删除。