NLP最简单中文分词介绍

最新推荐文章于 2022-03-17 12:03:34 发布

脚着沃土长望星空

最新推荐文章于 2022-03-17 12:03:34 发布

阅读量244

点赞数

分类专栏：土味文章标签： java nlp 算法

本文链接：https://blog.csdn.net/sinat_34067387/article/details/109363401

版权

土味专栏收录该内容

55 篇文章 4 订阅

订阅专栏

最近在看自然语言处理，因为图像识别太难了，先放一放。然后在 Git 上找到了一个中文分词的 Java 项目，引入 jar 包后确实可以运行，就直接去看源码了，然后看得头昏脑涨，最后没看懂怎么实现的。
一口吃不成大胖子，只能一步一步来，就去找了相关资料来看，发现还是蛮复杂的，尤其是那些计算公式，头疼。研究了几天，今天才算入了门，现在先写一篇最简单的语句分词，算为后面做铺垫，注释很详细，适合新手阅读。

前期准备

主流的中文分词方法和分词工具介绍中文分词原理及分词工具介绍
适合入门的 HMM 相关概念介绍 HMM学习最佳范例
适合入门的概率计算过程介绍一文搞懂HMM（隐马尔可夫模型）
网上普遍的深奥介绍基于HMM的中文分词
这些链接不用全部看完，看不懂的直接跳过就行，了解一下概念。

功能说明

如果一句话里面的所有字，都能分类到 BMES 里面（可重复），那么就可对它进行分词。

例：{陈佩斯吃西瓜}
分类
词头 B: 陈佩斯吃西瓜比如陈述，佩服，斯文，吃饭，西方，瓜壳
词中 M: 佩比如陈佩斯，其他字不行，我说的>_<。
词尾 E：佩斯吃西瓜比如钦佩，陈佩斯，好吃，东西，木瓜
单字 S：吃
挑选代码执行结果里面概率最大的组合
BMESBE 即词头词中词尾单字成词词头词尾
对照 {陈佩斯吃西瓜} 进行分词
结果 {陈佩斯吃西瓜}

代码实现

@Test
public void testHMM() {
    // 建议新手看代码前先去看下面这两篇文章，了解一下大概原理，看完后基本就懂了。
    // 通过骰子的例子说明概率是如何计算的：https://www.cnblogs.com/skyme/p/4651331.html
    // 详细介绍 HMM 的各个概念：https://www.52nlp.cn/category/hidden-markov-model

    // 功能
    // 如果一句话里面的所有字，都能分类到 BMES 里面（可重复），那么就可对它进行分词。
    // 例：{陈佩斯吃西瓜}
    // 分类
    // 词头   B: 陈佩斯吃西瓜   比如 陈述，佩服，斯文，吃饭，西方，瓜壳
    // 词中   M: 佩            比如 陈佩斯，其他字不行，我说的。
    // 词尾   E：佩斯吃西瓜     比如 钦佩，陈佩斯，好吃，东西，木瓜
    // 单字   S：吃
    // 挑选代码执行结果里面概率最大的组合
    // BMESBE 即 词头词中词尾 单字成词 词头词尾
    // 对照 {陈佩斯吃西瓜} 进行分词
    // 结果 {陈佩斯 吃 西瓜}

    // 1.隐藏状态集合，包括词头，词中、词尾、单字成词。
    String[] status = new String[]{"B", "M", "E", "S"};

    // 2.观察状态集合，即我们需要分词的句子。
    String str = "陈佩斯吃西瓜";

    // 3.发射概率矩阵，也称混淆矩阵， 包含了给定隐马尔科夫模型的某一个特殊的隐藏状态，观察到的某个观察状态的概率，通过语料训练获得。
    // 4*6 矩阵说明： 行号依次是 4 种隐藏状态{BMES}，列号依次是 6 种观察状态{陈佩斯吃西瓜}，且每列之和为 1。
    // 第一行第一列值为 1/6，它的意思是对于 B 状态即词头而言，有{陈佩斯吃西瓜}这 6 种观察状态，{陈}占其中 1/6。
    // 第二行第二列值为 1，它的意思是对于 M 状态即词头而言，有{佩}这 1 种观察状态，{佩}占其中 1/1，其他都为0。
    double[][] emitProbMatrix = new double[][] {
            {(double)1/6,(double)1/6,(double)1/6,(double)1/6,(double)1/6,(double)1/6},
            {0,1,0,0,0,0},
            {0,0.2,0.2,0.2,0.2,0.2},
            {0,0,0,1,0,0}
    };

    // 4.{陈佩斯吃西瓜}一共六个字，每个字都有4种可能{BMES}，其中概率最大的，就是我们认为最合理的分词方案。
    for (int i = 0; i < 4; i++) {
        for (int j = 0; j<4; j++) {
            for (int k = 0; k<4; k++) {
                for (int l = 0; l<4; l++) {
                    for (int m = 0; m<4; m++) {
                        for (int n = 0; n<4; n++) {
                            // 公式说明
                            // 例： 计算 BMESBE 组合出现的概率
                            // {BMES}里面选择 B 的概率是0.25，B 这个隐藏状态对应的观察状态有6个，{陈佩斯吃西瓜}里面选择 陈 的概率是1/6；
                            // {BMES}里面选择 M 的概率是0.25，M 这个隐藏状态对应的观察状态有1个，{佩}里面选择 佩 的概率是1；
                            // {BMES}里面选择 E 的概率是0.25，E 这个隐藏状态对应的观察状态有5个，{佩斯吃西瓜}里面选择 斯 的概率是1/5；
                            // {BMES}里面选择 S 的概率是0.25，S 这个隐藏状态对应的观察状态有1个，{吃}里面选择 吃 的概率是1；
                            // {BMES}里面选择 B 的概率是0.25，B 这个隐藏状态对应的观察状态有6个，{陈佩斯吃西瓜}里面选择 西 的概率是1/6；
                            // {BMES}里面选择 E 的概率是0.25，E 这个隐藏状态对应的观察状态有5个，{佩斯吃西瓜}里面选择 瓜 的概率是1/5；
                            // 将上述所有概率全部相乘，就是 BMESBE 的发生概率。
                            double p = 0.25 * emitProbMatrix[i][0] * 0.25 * emitProbMatrix[j][1] *
                                    0.25 * emitProbMatrix[k][2] * 0.25 * emitProbMatrix[l][3] *
                                    0.25 * emitProbMatrix[m][4] * 0.25 * emitProbMatrix[n][5];
                            // 过滤掉概率为0的组合，即不可能的组合，如 SSSSSS，因为根据上面分类结果，{陈}只会出现在{B}里面。
                            if(p > 0) {
                                // 将数字替换为 BMES，方便观察
                                String result = status[i] + status[j] + status[k] + status[l] + status[m] + status[n];
                                System.out.println(result + " " + (p*1000000000));
                            }
                        }
                    }
                }
            }
        }
    }
}

总结

难怪说隔行如隔山，感觉每一门技术都好深奥，慢慢来吧，急不得。
借用屈原的话：路漫漫其修远兮，吾将上下而求索。
后面再改进下代码，将那些公式模型套用进去。

脚着沃土长望星空

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP最简单中文分词介绍

最近在看自然语言处理，因为图像识别太难了，先放一放。然后在 Git 上找到了一个中文分词的 Java 项目，引入 jar 包后确实可以运行，就直接去看源码了，然后看得头昏脑涨，最后没看懂怎么实现的。一口吃不成大胖子，只能一步一步来，就去找了相关资料来看，发现还是蛮复杂的，尤其是那些计算公式，头疼。研究了几天，今天才算入了门，现在先写一篇最简单的语句分词，算为后面做铺垫，注释很详细，适合新手阅读。前期准备主流的中文分词方法和分词工具介绍中文分词原理及分词工具介绍适合入门的 HMM 相关概念介绍.
复制链接

扫一扫