自然语言处理hanlp------5切分算法

最新推荐文章于 2023-10-30 11:01:49 发布

iterhui

最新推荐文章于 2023-10-30 11:01:49 发布

阅读量724

点赞数

分类专栏： hanlp 文章标签：自然语言处理 hanlp

本文链接：https://blog.csdn.net/qq_41976613/article/details/111564889

版权

hanlp 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

提示：不再演示Python版

一、完全切分式的中文分词算法

严格意义上，并不是真正的分词算法，极不准确

案例

在这里插入图片描述
代码如下：

/**
     * 完全切分式的中文分词算法
     *
     * @param text       待分词的文本
     * @param dictionary 词典
     * @return 单词列表
     */
    public static List<String> segmentFully(String text, Map<String, CoreDictionary.Attribute> dictionary)
    {
        List<String> wordList = new LinkedList<String>();
        for (int i = 0; i < text.length(); ++i)
        {
            for (int j = i + 1; j <= text.length(); ++j)
            {
                String word = text.substring(i, j);
                if (dictionary.containsKey(word))
                {
                    wordList.add(word);
                }
            }
        }
        return wordList;
    }

二、正向最长匹配的中文分词算法

前面的案例可见，会列出所有情况，显然不是我们想要的结果，将结果中最长保留，且是左侧最长保留，直接结果和代码演示：

在这里插入图片描述
代码：

/**
     * 正向最长匹配的中文分词算法
     *
     * @param text       待分词的文本
     * @param dictionary 词典
     * @return 单词列表
     */
    public static List<String> segmentForwardLongest(String text, Map<String, CoreDictionary.Attribute> dictionary)
    {
        List<String> wordList = new LinkedList<String>();
        for (int i = 0; i < text.length(); )
        {
            String longestWord = text.substring(i, i + 1);
            for (int j = i + 1; j <= text.length(); ++j)
            {
                String word = text.substring(i, j);
                if (dictionary.containsKey(word))
                {
                    if (word.length() > longestWord.length())
                    {
                        longestWord = word;
                    }
                }
            }
            wordList.add(longestWord);
            i += longestWord.length();
        }
        return wordList;
    }

可以发现，前半句分词正确，而后半句分词明显不是我们想要的
如果还是不太明白为何强调正向，继续往下看，反向的看完，再回头理解

三、逆向最长匹配的中文分词算法

逆向的结果展示给你们看
在这里插入图片描述
代码：

/**
     * 逆向最长匹配的中文分词算法
     *
     * @param text       待分词的文本
     * @param dictionary 词典
     * @return 单词列表
     */
    public static List<String> segmentBackwardLongest(String text, Map<String, CoreDictionary.Attribute> dictionary)
    {
        List<String> wordList = new LinkedList<String>();
        for (int i = text.length() - 1; i >= 0; )
        {
            String longestWord = text.substring(i, i + 1);
            for (int j = 0; j <= i; ++j)
            {
                String word = text.substring(j, i + 1);
                if (dictionary.containsKey(word))
                {
                    if (word.length() > longestWord.length())
                    {
                        longestWord = word;
                    }
                }
            }
            wordList.add(0, longestWord);
            i -= longestWord.length();
        }
        return wordList;
    }

在这里发现前半句错误，后半句正确了，所以这就是为什么有逆向的算法，但同时也说明了，不管是正向还是逆向都是不一定完全得到正确结果的，此时，相信你们跟我一样，想到了正向逆向相结合，嘿，还真有

四、双向最长匹配的中文分词算法

话不多说，直接演示结果和代码

在这里插入图片描述
代码：

/**
     * 统计分词结果中的单字数量
     *
     * @param wordList 分词结果
     * @return 单字数量
     */
    public static int countSingleChar(List<String> wordList)
    {
        int size = 0;
        for (String word : wordList)
        {
            if (word.length() == 1)
                ++size;
        }
        return size;
    }

    /**
     * 双向最长匹配的中文分词算法
     *
     * @param text       待分词的文本
     * @param dictionary 词典
     * @return 单词列表
     */
    public static List<String> segmentBidirectional(String text, Map<String, CoreDictionary.Attribute> dictionary)
    {
        List<String> forwardLongest = segmentForwardLongest(text, dictionary);
        List<String> backwardLongest = segmentBackwardLongest(text, dictionary);
        if (forwardLongest.size() < backwardLongest.size())
            return forwardLongest;
        else if (forwardLongest.size() > backwardLongest.size())
            return backwardLongest;
        else
        {
            if (countSingleChar(forwardLongest) < countSingleChar(backwardLongest))
                return forwardLongest;
            else
                return backwardLongest;
        }
    }

这里前半句还不是想要的，但不代表算法无用，这里直接取用何晗大佬原文中的例子如下：

在这里插入图片描述

速度测评

研究分词的意义不在于精度而在于速度。直接上何晗大佬的图，大家进行阅读理解一下即可。

在这里插入图片描述
附上我 java环境下跑的图：

/**
     * 评测速度
     *
     * @param dictionary 词典
     */
    public static void evaluateSpeed(Map<String, CoreDictionary.Attribute> dictionary)
    {
        String text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原";
        long start;
        double costTime;
        final int pressure = 10000;

        System.out.println("正向最长");
        start = System.currentTimeMillis();
        for (int i = 0; i < pressure; ++i)
        {
            segmentForwardLongest(text, dictionary);
        }
        costTime = (System.currentTimeMillis() - start) / (double) 1000;
        System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime);

        System.out.println("逆向最长");
        start = System.currentTimeMillis();
        for (int i = 0; i < pressure; ++i)
        {
            segmentBackwardLongest(text, dictionary);
        }
        costTime = (System.currentTimeMillis() - start) / (double) 1000;
        System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime);

        System.out.println("双向最长");
        start = System.currentTimeMillis();
        for (int i = 0; i < pressure; ++i)
        {
            segmentBidirectional(text, dictionary);
        }
        costTime = (System.currentTimeMillis() - start) / (double) 1000;
        System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime);
    }

Python的代码不做演示以及测评了，本人以java为学习hanlp的主学习语言，之后的章节也会如此，需要Python代码的，直接去何晗大佬的GitHub下载即可。其实触类旁通，相信大家已经开始学习自然语言处理，这些都不是问题，我们在于去弄懂原理，而不在于搞明白语言之间的区别，如果何晗大佬给出C的库，也是同样的道理去解决。

此外：本人创建了QQ交流群，希望大家来交流学习
在这里插入图片描述