hadoop练习项目

Yarn项目练习
1、从本地构建一个 a.txt 文本文件,上传至 hdfs 目录/tmp/tianliangedu/个人用户名目录下。
通过 yarn jar 执行 wordcount 程序,指定新建队列 oncourse,输出目录设置为 /tmp/tianliangedu/tianliangedu/个人用户名下的任意指定目录。
分别实现在 yarn webui 和 yarn shell 中查看任务列表、找到自己所属的任务、查看其 执行状态。
用 yarn shell kill 掉该任务,查看任务的最终状态是什么。
2、系统参数设置再练习
设置 reduce 个数为 2
查看 reduce 修改后,输出结果的变化
3、自学 yarn java api
通过 java 代码获取指定 yarn app-id 的状态信息。
通过 java 代码实现 kill 指定的 app-id 的信息。

HDFS项目练习
1、下载 www.baidu.com 首页的文本数据,写入到本地文件 index.html 中,并将文件通过 java api 的方式上传到/tmp/自己的登陆用户名的目录中。
linux wget 下载 www.baidu.com 首页的文本内容,命名为 index.html
通过 java 代码读取本地的 index.html 文件成 java 字节数组。
通过 java 代码打开 hdfs 要写入文件的输出流。
通过 java 代码已经打开的输出流,写入之前读取完成的 java 字节数组。写入完成,将输出 流关闭。
通过 java 代码写主方法,传入本地的输入文件和 hdfs 的输出文件路径。
maven 打包上传到开发环境,用 yarn jar 来执行。
执行完成后查看传入 java 代码的 hdfs 的输出文件路径是否已存在,内容是否正确。

2、有两个文本文件,均存储为 hdfs 目录中,分别为/tmp/number1.txt 和/tmp/number2.txt, 文件内部每行一个单词,求两个文件中相同的单词是哪些?共多少个,输出在控制台中。
通过 java api 读取 hdfs 的第 1 个文件/tmp/number1.txt 文件,存入一个 set 当中。
通过 java api 读取 hdfs 的第 2 个文件/tmp/number2.txt 文件,存入一个 set 当中。
通过 java 代码,比较两个 set 当中相同的单词有哪些。

3、有两个文本文件,分别为本地目录/tmp/number1.txt 和 hdfs 目录中的/tmp/number2.txt, 文件内部每行一个单词,求两个文件中相同的单词是哪些?共多少个,输出在控制台中。
通过 java api 读取本地的文件/tmp/number1.txt 文件,存入一个 set 当中。
通过 java api 读取 hdfs 的文件/tmp/number2.txt 文件,存入一个 set 当中。
通过 java 代码,比较两个 set 当中相同的单词有哪些。

4、有一个 hdfs 数据目录/tmp/data/中,存放若干 txt 文本文件,文件内部存放的是由空格分隔 的中英文单词,求该目录下所有单词的出现频率,并按出现频率倒序排列后输出到控制台中。
通过 java api 读取 hdfs 的文件目录/tmp/data 下的所有 hdfs 路径,存入一个 set 当中。
通过 java api 代码读取 set 中每个元素即 hdfs 路径的文本内容。
将每个文本内容按空格分隔开,放入 map<String,Integer>结构中。如不存则 value 置 1, 如果存在,则 value+1 操作。
将 map 转换成 list 后,写 list 比较器,按其元素的 value 进行排序。
将排序后结果通过 java 标准输出打印到控制台当中。

5、基于 hdfs 常用 API 操作
创建文件(createNewFile )
创建文件目录(mkdirs)
拷贝本地文件到 hdfs 目录(copyFromLocalFile)
拷贝 hdfs 数据到本地(copyToLocalFile)
删除 hdfs 文件(delete )
查看 hdfs 中某文件是否存在(exists)
文件重命名(rename)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值