过滤停用词

最新推荐文章于 2023-09-08 20:17:05 发布

m0_49766582

最新推荐文章于 2023-09-08 20:17:05 发布

阅读量463

点赞数

分类专栏：笔记文章标签： hadoop mapreduce hdfs

本文链接：https://blog.csdn.net/m0_49766582/article/details/122627615

版权

                            过滤停用词

过滤停用词中的重点是设置全局变量，设置全局变量有两种方法，1.hdfs读取，将文件设置在所有节点都能访问的地方，适合文件较大类型 2.利用分布式缓存的方式，运行的时候会把文件复制在每个节点中，适合文件较小的类型
//利用分布式缓存方式设置全局变量
package wordcount;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException; //报错类
import java.util.Arrays;
import java.util.StringTokenizer; //StringTokenizer类，用于将空白字符作为分割符的类

import org.apache.hadoop.conf.Configuration;//Hadoop中用于读取配置信息的类
import org.apache.hadoop.fs.Path; //有关文件系统输入输出数据的类
import org.apache.hadoop.io.IntWritable; //封装定义了IntWritable类
import org.apache.hadoop.io.Text; //封装定义了Text类
import org.apache.hadoop.mapreduce.Job; //封装定义了Job类
import org.apache.hadoop.mapreduce.Mapper; //封装定义了Mapper类
import org.apache.hadoop.mapreduce.Reducer; //封装定义了Reducer类
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; //文件输入要用到的类
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; //文件输出要用到的类
import org.apache.hadoop.util.GenericOptionsParser; //GenericOptionsParser类，用来解释常用hadoop命令，并根据需要为Configuration对象设置相应的值

public class stopwords{

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{ //自定义的TokenizerMapper类，继承自前面导入的Mapper类

private final static IntWritable one = new IntWritable(1);  //实例化了一个IntWritable类的one对象并赋值为常量1
private Text word = new Text();                             //实例化了一个Text类的对象word
  
public void map(Object key, Text value, Context context     //定义Map方法
                ) throws IOException, InterruptedException {

//这里说一下context类，它是Mapper的一个内部类，它用来与MapReduce系统进行通信，如把map的结果传给reduce处理。简单的说顶级接口用它在map或是reduce任务中跟踪task的状态，MapContext就是记录了map执行的上下文，在mapper类中，这个context可以存储一些job conf的信息，同时context作为了map和reduce执行中各个函数的一个桥梁，我们可以在map函数中处理这个信息

  StringTokenizer itr = new StringTokenizer(value.toString());//实例化了一个以空白字符为分隔符的StringTokenizer类的对象itr，value.toString()是指将value转化为string类型的字符串，这是要StringTokenizer的内容
  while (itr.hasMoreTokens()) {//如果判断还有下

最低0.47元/天解锁文章

m0_49766582

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
过滤停用词

过滤停用词过滤停用词中的重点是设置全局变量，设置全局变量有两种方法，1.hdfs读取，将文件设置在所有节点都能访问的地方，适合文件较大类型 2.利用分布式缓存的方式，运行的时候会把文件复制在每个节点中，适合文件较小的类型//利用分布式缓存方式设置全局变量package wordcount;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOEx...
复制链接

扫一扫