NLP最简单中文分词介绍

最近在看自然语言处理,因为图像识别太难了,先放一放。然后在 Git 上找到了一个中文分词的 Java 项目,引入 jar 包后确实可以运行,就直接去看源码了,然后看得头昏脑涨,最后没看懂怎么实现的。
一口吃不成大胖子,只能一步一步来,就去找了相关资料来看,发现还是蛮复杂的,尤其是那些计算公式,头疼。研究了几天,今天才算入了门,现在先写一篇最简单的语句分词,算为后面做铺垫,注释很详细,适合新手阅读。

前期准备

功能说明

如果一句话里面的所有字,都能分类到 BMES 里面(可重复),那么就可对它进行分词。

  • 例:{陈佩斯吃西瓜}
  • 分类
    词头 B: 陈佩斯吃西瓜 比如 陈述,佩服,斯文,吃饭,西方,瓜壳
    词中 M: 佩 比如 陈佩斯,其他字不行,我说的>_<。
    词尾 E:佩斯吃西瓜 比如 钦佩,陈佩斯,好吃,东西,木瓜
    单字 S:吃
  • 挑选代码执行结果里面概率最大的组合
    BMESBE 即 词头词中词尾 单字成词 词头词尾
  • 对照 {陈佩斯吃西瓜} 进行分词
    结果 {陈佩斯 吃 西瓜}

代码实现

@Test
public void testHMM() {
    // 建议新手看代码前先去看下面这两篇文章,了解一下大概原理,看完后基本就懂了。
    // 通过骰子的例子说明概率是如何计算的:https://www.cnblogs.com/skyme/p/4651331.html
    // 详细介绍 HMM 的各个概念:https://www.52nlp.cn/category/hidden-markov-model

    // 功能
    // 如果一句话里面的所有字,都能分类到 BMES 里面(可重复),那么就可对它进行分词。
    // 例:{陈佩斯吃西瓜}
    // 分类
    // 词头   B: 陈佩斯吃西瓜   比如 陈述,佩服,斯文,吃饭,西方,瓜壳
    // 词中   M: 佩            比如 陈佩斯,其他字不行,我说的。
    // 词尾   E:佩斯吃西瓜     比如 钦佩,陈佩斯,好吃,东西,木瓜
    // 单字   S:吃
    // 挑选代码执行结果里面概率最大的组合
    // BMESBE 即 词头词中词尾 单字成词 词头词尾
    // 对照 {陈佩斯吃西瓜} 进行分词
    // 结果 {陈佩斯 吃 西瓜}

    // 1.隐藏状态集合,包括词头,词中、词尾、单字成词。
    String[] status = new String[]{"B", "M", "E", "S"};

    // 2.观察状态集合,即我们需要分词的句子。
    String str = "陈佩斯吃西瓜";

    // 3.发射概率矩阵,也称混淆矩阵, 包含了给定隐马尔科夫模型的某一个特殊的隐藏状态,观察到的某个观察状态的概率,通过语料训练获得。
    // 4*6 矩阵说明: 行号依次是 4 种隐藏状态{BMES},列号依次是 6 种观察状态{陈佩斯吃西瓜},且每列之和为 1。
    // 第一行第一列值为 1/6,它的意思是对于 B 状态即词头而言,有{陈佩斯吃西瓜}这 6 种观察状态,{陈}占其中 1/6。
    // 第二行第二列值为 1,它的意思是对于 M 状态即词头而言,有{佩}这 1 种观察状态,{佩}占其中 1/1,其他都为0。
    double[][] emitProbMatrix = new double[][] {
            {(double)1/6,(double)1/6,(double)1/6,(double)1/6,(double)1/6,(double)1/6},
            {0,1,0,0,0,0},
            {0,0.2,0.2,0.2,0.2,0.2},
            {0,0,0,1,0,0}
    };

    // 4.{陈佩斯吃西瓜}一共六个字,每个字都有4种可能{BMES},其中概率最大的,就是我们认为最合理的分词方案。
    for (int i = 0; i < 4; i++) {
        for (int j = 0; j<4; j++) {
            for (int k = 0; k<4; k++) {
                for (int l = 0; l<4; l++) {
                    for (int m = 0; m<4; m++) {
                        for (int n = 0; n<4; n++) {
                            // 公式说明
                            // 例: 计算 BMESBE 组合出现的概率
                            // {BMES}里面选择 B 的概率是0.25,B 这个隐藏状态对应的观察状态有6个,{陈佩斯吃西瓜}里面选择 陈 的概率是1/6;
                            // {BMES}里面选择 M 的概率是0.25,M 这个隐藏状态对应的观察状态有1个,{佩}里面选择 佩 的概率是1;
                            // {BMES}里面选择 E 的概率是0.25,E 这个隐藏状态对应的观察状态有5个,{佩斯吃西瓜}里面选择 斯 的概率是1/5;
                            // {BMES}里面选择 S 的概率是0.25,S 这个隐藏状态对应的观察状态有1个,{吃}里面选择 吃 的概率是1;
                            // {BMES}里面选择 B 的概率是0.25,B 这个隐藏状态对应的观察状态有6个,{陈佩斯吃西瓜}里面选择 西 的概率是1/6;
                            // {BMES}里面选择 E 的概率是0.25,E 这个隐藏状态对应的观察状态有5个,{佩斯吃西瓜}里面选择 瓜 的概率是1/5;
                            // 将上述所有概率全部相乘,就是 BMESBE 的发生概率。
                            double p = 0.25 * emitProbMatrix[i][0] * 0.25 * emitProbMatrix[j][1] *
                                    0.25 * emitProbMatrix[k][2] * 0.25 * emitProbMatrix[l][3] *
                                    0.25 * emitProbMatrix[m][4] * 0.25 * emitProbMatrix[n][5];
                            // 过滤掉概率为0的组合,即不可能的组合,如 SSSSSS,因为根据上面分类结果,{陈}只会出现在{B}里面。
                            if(p > 0) {
                                // 将数字替换为 BMES,方便观察
                                String result = status[i] + status[j] + status[k] + status[l] + status[m] + status[n];
                                System.out.println(result + " " + (p*1000000000));
                            }
                        }
                    }
                }
            }
        }
    }
}

总结

  • 难怪说隔行如隔山,感觉每一门技术都好深奥,慢慢来吧,急不得。
  • 借用屈原的话:路漫漫其修远兮,吾将上下而求索。
  • 后面再改进下代码,将那些公式模型套用进去。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值