中文分词器的基本原理和简单实现

最新推荐文章于 2024-08-16 08:45:16 发布

程序小源哥哥

最新推荐文章于 2024-08-16 08:45:16 发布

阅读量5.1k

点赞数 8

文章标签：中文分词 java 分词 ac自动机有向图

本文链接：https://blog.csdn.net/wbsrainbow/article/details/88795312

版权

本文介绍了AC自动机在中文分词中的基本原理和简单实现，包括字典树、失败指针的概念，并通过例子解释了AC自动机如何提高匹配效率。同时，讨论了分词过程中遇到的问题，如单字补充、概率计算以及平滑处理，为选取最可能正确的分词提供了思路。

摘要由CSDN通过智能技术生成

对“大学生活”这句话做分词，通常来说，一个分词器会分三步来实现：

找到“大学生活”这句话中的全部词做为一个集合，即：[大、大学、大学生、学、学生、生、生活、活]
在第一步中得到的集合中找到所有能组合成“大学生活”这句话的子集，即：
[大、学、生、活]

[大、学、生活]

[大、学生、活]

[大学、生、活]

[大学、生活]

[大学生、活]
在第二步中产生的所有子集中挑选一个最有可能的作为最终的分词结果。

为了得到第1步需要的集合，通常我们需要一个词典。大部分的分词器都是基于词典去做分词的(也就是说也可以不基于词典来做分词，在此暂时不做讨论)。那么现在假设我们有一个小词典：[大学、大学生、学习、学习机、学生、生气、生活、活着]。首先要在“大学生活”这句话里面匹配到这个词典里面的全部词，有些同学脑中可能会出现这种过程：

public class Demo1{
    //加载词典中的所有词汇
    static Set<String> dic  = new HashSet(){
  {
        add("大学");
        add("大学生");
        add("学习");
        add("学习机");
        add("学生");
        add("生气");
        add("生活");
        add("活着");
    }};
    //匹配句子中词典中存在的所有词汇
    static List<String> getAllWordsMatched(String sentence){
        List<String> wordList = new ArrayList<>();
        for(int index = 0;index < sentence.length();index++){
            for(int offset = index+1; offset <= sentence.length();offset++){
                String sub = sentence.substring(index,offset);
                if(dic.contains(sub)){
                    wordList.add(sub);
                }
            }
        }
        return wordList;
    }
    public static void main(String[] args){
        String sentence = "大学生活";
        getAllWordsMatched(sentence).forEach(System.out::println);
    }
}

执行这段代码会输出：