【大数据处理技术】实验5

小手の冰凉

于 2022-09-27 18:42:00 发布

阅读量849

点赞数 1

分类专栏：【作业分享交流】文章标签： hadoop java hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lenhart001/article/details/127076215

版权

【作业分享交流】专栏收录该内容

38 篇文章 33 订阅

订阅专栏

一、测试（可忽略）

这里使用IDEA创建java项目进行测试

1.创建Java项目

2.编写java代码（源代码在后面）

3.生成jar包

（1）修改项目结构（个人觉得可以忽略掉）

文件→项目结构→工件

添加来自具有依赖项的模块

选择主类

复制到输出目录并通过清单链接

（2）导出jar包

构建→构建工件→构建

IDEA项目将在out文件中生成对应jar包

4.运行jar包

注意：需要正确配置jdk环境变量，不然无法运行jar包

【以上对完成此次作业没有任何帮助(#^.^#)】

【以上对完成此次作业没有任何帮助(#^.^#)】

【以上对完成此次作业没有任何帮助(#^.^#)】

二、创建mywordfile文件【省略图片】

（1）在本地/usr/local/hadoop创建mywordfile.txt文件（略）

（2）在Hadoop上创建input，output目录

./bin/hdfs dfs -mkdir input

./bin/hdfs dfs -mkdir output

（3）启动Hadoop，上传文件mywordfile.txt到input目录中

./bin/hdfs dfs - put mywordfile.txt input

（4）创建myapp目录（将生成的jar包导入此目录）

sudo mkdir /usr/local/hadoop/myapp

三、使用Eclipse创建java文件，生成Test5.jar包

（1）使用Eclipse创建java项目

注意：使用Eclipse前一定要配置好jdk，创建和自己本地jdk版本一致的项目！

导入项目需要的jar包：

①/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar;

②“/usr/local/hadoop/share/hadooplcommon/lib”目录下的所有JAR包;

③“/usrlocal/hadoop/share/hadoop/mapreduce”目录下的所有JAR包，但是，不包括jdiff、lib、lib-examples和sources目录

JRE System Library建议选用[JS2E-1.5]

（2）编写java代码

源代码：（WordCount）

import java.io.IOException;

import java.util.Iterator;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public WordCount() {

}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();

if(otherArgs.length < 2) {

System.err.println("Usage: wordcount <in> [<in>...] <out>");

System.exit(2);

}

Job job = Job.getInstance(conf, "word count");

job.setJarByClass(WordCount.class);

job.setMapperClass(WordCount.TokenizerMapper.class);

job.setCombinerClass(WordCount.IntSumReducer.class);

job.setReducerClass(WordCount.IntSumReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

for(int i = 0; i < otherArgs.length - 1; ++i) {

FileInputFormat.addInputPath(job, new Path(otherArgs[i]));

}

FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));

System.exit(job.waitForCompletion(true)?0:1);

}

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

private static final IntWritable one = new IntWritable(1);

private Text word = new Text();

public TokenizerMapper() {

}

public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {

StringTokenizer itr = new StringTokenizer(value.toString());

while(itr.hasMoreTokens()) {

this.word.set(itr.nextToken());

context.write(this.word, one);

}

}

}

public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

private IntWritable result = new IntWritable();

public IntSumReducer() {

}

public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

int sum = 0;

IntWritable val;

for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {

val = (IntWritable)i$.next();

}

this.result.set(sum);

context.write(key, this.result);

}

}

}

（3）生成jar包：

右键项目→选择Export→选择Java/Runnable JAR file

Launch configuration：选择运行的主类（我的是WordCount -Study）

Export destination：选择导出位置：/usr/lcoal/hadoop/myapp

注意：权限问题：sudo chmod 777 -R /usr/local/hadoop

四、使用Test5.jar包

备注：本人的Eclipse导出jar包后报错找不到input，所以由使用idea导出jar包（原理和Eclipse一致，过程可以上网搜索），导出后的jar包名字为：test5.jar

【参考资料】

eclipse怎么配置jdk环境变量教程-系统部落

eclipse 导出jar包_xyzko1的博客-CSDN博客_eclipse导出jar包

小手の冰凉 CSDN认证博客专家 CSDN认证企业博客

码龄4年

128: 原创

22万+: 周排名

2万+: 总排名

27万+: 访问

: 等级

1788: 积分

933: 粉丝

430: 获赞

58: 评论

1337: 收藏

私信

关注

热门文章

分类专栏

最新评论

英语六级过关技巧
2401_89679057: 挺好的就是有几个单词拼错了
【计算机组成原理】第二章运算方法和运算器
做而论道_CS: 丢了进位，＋15 就当做－1 使用了！同理，＋14 就是－2 了。继续，＋13 就是－3 了。。。。最后，＋8，就是－8 ！－－－－－－－－－－-－－－－－－－＊　以上，就是计算机专家发明的：＊＊　负数的补码，与其代表的负数。＊－－－－－－－－－-－－－－－－－－其实，哪有什么 “补码” 啊！不过就是 “丢了进位”，　也就是减去了 2^n，　　然后就表现出来减法运算而已！由此可知：机器数真值符号位原码反码取反加一符号位不变正零负零符号位也参加运算。。。 [ X + Y ]补 = [ X ]补 + [ Y ]补、 [ X －Y ]补 = [ X ]补－[ Y ]补 = [ X ]补 + [－Y ]补，这些，都是一派胡言！【舍弃进位】的作用，不过就是：小学的知识而已。计算机专家，如果好好的上个小学，就不会这么胡编乱造了。由此可知，计算机专家，数学水平，是很洼的。谁要是跟着老外学算术，立刻、马上、直接，就掉沟里去了取反加一这些，你就是把它们都背熟了、都会做了，你也不可能知道：加、减法，是怎么转换的？
【计算机组成原理】第二章运算方法和运算器
做而论道_CS: 但是，如果你忽略了进位呢？（或者说，故意舍弃了进位。）这就少算了 16 ！那么就是：5 + 15－16 = 5－1 = 4。此时的＋15，就相当于－1 ！为什么是－1 ？因为：你舍弃了进位，就少算了 16。所以：＋15－16 = －1。计算，并没有变化，竖式依然如下：　　　0 1 0 1　= 5 　　＋1 1 1 1　= 15 （=－1）－－－－－－－－－－－略掉、0 1 0 0　= 4 你看吧，本来是 “无符号数” 相加，丢了进位，就是 “带符号数” 相减！由此可知：　哪有什么 “有、无符号数” 啊？　所谓的符号位，就是瞎掰！
【计算机组成原理】第二章运算方法和运算器
做而论道_CS: 就说四位二进制数吧。数字的范围是：0000 ~ 1111。相当于十进制：0 ~ 15。出现进位，即：2^4 = 16。这些数，都是正整数。它们既没有小数点，也没有什么 “符号位”。计算机专家，为此就编造了一个词：无符号数。计算机中有个加法器，其运算规则是：逢二进一。找两个无符号数相加，列竖式如下：　　　0 1 0 1　= 5 　　＋1 1 1 1　= 15 －－－－－－－－－－－进 1、0 1 0 0　= 16 + 4 = 20 这就是 “无符号数” 的加法：　　5 + 15 = 16 + 4 = 20。计算完全正确！一点毛病都没有吧？没毛病！
【计算机组成原理】第二章运算方法和运算器
做而论道_CS: 所谓的原码反码，都是不存在的。所谓的补码，也是正常的（二进制）数字。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。