基于hadoop的分布式分词程序（庖丁分词）

最新推荐文章于 2020-02-07 20:04:48 发布

柱子89

最新推荐文章于 2020-02-07 20:04:48 发布

阅读量1.6k

点赞数

分类专栏：电信运营商日志挖掘

电信运营商日志挖掘专栏收录该内容

40 篇文章 1 订阅

订阅专栏

一、使用的分词包——庖丁分词器介绍

1.1、简介：

庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。

1.2、优点：

这里之所以使用庖丁主要考虑到庖丁的分词效率比其他的分词器要高，

1.3、缺点：

其分词有一个缺点：

例如下面一段文字:

“发展社区老年活动场所和服务设施”

如果想搜索日本的和服相关资料,输入关键字“和服”的时候，上面的资料也会被搜索出来

搜索引擎是第一步搜索：

在浩瀚的信息中，快速集结最后可能是所想要的结果，按照可能是最好的顺序展现出来。

人的眼睛是第二步搜索：

找寻最符合要求的结果，同时将机器无法轻易识别的少数“无效”结果过滤

“和服”问题，涉及了汉语语义的问题，几乎不可完全解决(可作为“特例”解决，或通过排序方法，将他排到相对靠后等价解决)。

但是这同时也是庖丁分词的一个有点，因为对于一般的分词而言要确定出到底是怎样的一种组合也只是选择概率较大的，将可能的组合全部给出给了我们选择的机会。

——摘自百度百科

这里我把我用的版本和词典文件共享到网盘欢迎下载：http://pan.baidu.com/s/1eQekI9k

二、分词程序单机测试：

2.1、导入相应的分词包、词典

需要的包：

字典：将整个dic文件拷贝到src目录下

2.2、java分词程序：（注意：这里并没有去除噪音和停用词，只是简单的测试庖丁分词的可用性）

[csharp] view plain copy

public class TestPaoding {
    public static void main(String[] args) {
        String line = "亚洲：中华人民共和国";
        PaodingAnalyzer analyzer = new PaodingAnalyzer();
        StringReader sr = new StringReader(line);
        TokenStream ts = analyzer.tokenStream("", sr);
        try{
            while(ts.incrementToken()){
                CharTermAttribute ta = ts.getAttribute(CharTermAttribute.class);
                System.out.println(ta.toString());
            }
        }catch(Exception e){

        }
    }
}

2.3、单机程序测试结果：

三、单机程序mapreduce化：

3.1、开发环境：

伪分布式系统

hadoop1.1.2平台

开发环境eclipse

需要的包跟上面写的一样，这里就不赘余了

3.2、mapreduce程序：

mapreduce计算框架浅析：

这里因为只是进行简单的分词，没有必要多个mapper，也不需要reducer。

这里的inputformat没有加控制，如果文件很多时，就一定要对inputformat进行控制，控制分片的大小，这样才能保证mapreduce的计算效率最高

[java] view plain copy

package test;

import java.io.IOException;
import java.io.StringReader;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public class TestTOkenizer extends Configured implements Tool {
    public static class Map extends Mapper<LongWritable,Text,Text,Text>{
        public static void main(String[] args)throws Exception{
            int res = ToolRunner.run(new Configuration(), new TestTOkenizer(), args);
            System.exit(res);
        }
        //计数器，当在跑数据的时候出错，计数器就起作用了，能统计出多少数据是成功完成了的
        enum Counter
        {
            LINESKIP,
        }
        //Map程序
        public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{
            //获取单行文本内容
            //1 这里是长江大学石油软件实验班，我是张三
            //这里为了模仿微博分词过程中前面可能都有一个ID号，所以在输入的要进行分词的String中也加入了序号
            String line = value.toString();
            try
            {
                //根据空格进行字符串拆分
                String[] lineSplit = line.split("[\\s]+");
                //将第一个序号放在anum变量中
                String anum = lineSplit[0];
                //将文本内容放到bnum变量中
                String bnum = lineSplit[1];
                //初始化庖丁分词器
                PaodingAnalyzer analyzer = new PaodingAnalyzer();
                //根据文本内容构造StringReader
                StringReader sr = new StringReader(bnum);
                //用来整合分好的单个词
                StringBuilder sb = new StringBuilder();
                //去停用词后的文本
                String resultString="";
                //分词
                org.apache.lucene.analysis.TokenStream ts = analyzer.tokenStream("", sr);
                try{
                    while(ts.incrementToken()){//将单个分好的词组装成一个StringBuilder，方便后面的去噪和去停用词
                        CharTermAttribute ta = ts.getAttribute(CharTermAttribute.class);
                        sb.append(ta.toString()+"   ");
                    }
                    //构造去停用词对象
                    FileExcludeStopWord fileExcludeStopWord = new FileExcludeStopWord();
                    //去停用词，返回最终的分词结果
                    resultString = fileExcludeStopWord.fileExcludeStopWord(sb.toString());
                }catch(Exception e){

                }
                //将结果输出到hdfs中
                context.write(new Text(anum), new Text(resultString));
            }
            catch(java.lang.ArrayIndexOutOfBoundsException e){
                context.getCounter(Counter.LINESKIP).increment(1);
                return;
            }
        }
    }
    //配置、提交任务
    public int run(String[] args) throws Exception {
        Configuration conf = getConf();
        Job job = new Job(conf, "TestTOkenizer");//任务名
        job.setJarByClass(TestTOkenizer.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));//配置输入路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));//配置输出路径
        job.setMapperClass(Map.class);//指定Map类的位置
        job.setOutputFormatClass(org.apache.hadoop.mapreduce.lib.output.TextOutputFormat.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.waitForCompletion(true);
        //接下来的两句，是自己测试玩的，查看下job的状态
        System.out.println("job's name"+job.getJobName());
        System.out.println("job status"+(job.isSuccessful()?"yes":"no"));
        return job.isSuccessful()?0:1;
    }
}

3.3、去停用词类（这个类写的还不是很完美，停用词表也还不够完善，微博数据中，有一些没包含在停用词表中）

[java] view plain copy

package test;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.HashSet;
import java.util.Set;

public class FileExcludeStopWord {
    public static final String stopWordFile = "/home/jonsen/workspace/testPaoding/src/test/stopword.txt";
    public String fileExcludeStopWord(String splitResultStr) {
        try {
            BufferedReader stopWordFileBR = new BufferedReader(
                    new InputStreamReader(new FileInputStream(stopWordFile)));
            // 用来存放停用词的集合
            Set<String> stopWordSet = new HashSet<String>();
            // 初始化停用词表
            String stopWord = null;
            while ((stopWord = stopWordFileBR.readLine()) != null) {
                stopWordSet.add(stopWord);
            }
            if(stopWordFileBR!=null){
                stopWordFileBR.close();
            }
            // 得到分词后的词汇数组，以便后续比较
            String[] resultArray = splitResultStr.split("[\\s]+");
            // 过滤停用词
            for (int i = 0; i < resultArray.length; i++) {
                if (stopWordSet.contains(resultArray[i])) {
                    resultArray[i] = null;
                }
            }
            // 把过滤后的字符串数组存入到一个字符串中
            StringBuilder finalStr = new StringBuilder();
            for (int j = 0; j < resultArray.length; j++) {
                if (resultArray[j] != null) {
                    finalStr = finalStr.append(resultArray[j]).append(" ");
                }
            }
            return finalStr.toString();

        } catch (Exception e) {
            e.printStackTrace();
            return "";
        }
    }
}

3.4、上传文件到hdfs中：（直接右键上传文件即可）

文本文件内容：

3.5、配置输入输出路径运行程序：

注意：如果输出路径已经存在，一定要预先删除，否则会报错：

3.6、分词结果：

四、总结

到这里整个基于分布式的分词程序就完成了，但是只能处理文件数量不多的文本，大文件处理是没有问题的，如果都是单个的小文件，就需要自定义inputformat了，自己控制分片大小，才能提高效率！从分词的结果来看，很显然很多停用词是没有去掉的，很多没有意义的词语，噪音较大，还有一个问题就是庖丁的分词器，给出的所有可能的组合，这个虽好但是还需要花精力去分辨哪些是无用的，一般情况下，最长的是可能的组合的可能性比较大！