最好用的中文分词库cppjieba_ok【可直接编译使用用版】

甜橙の学习笔记

已于 2023-04-15 12:04:13 修改

阅读量2.8k

点赞数 9

文章标签：中文分词 github 人工智能 c++ nlp

于 2023-04-15 12:01:18 首次发布

本文链接：https://blog.csdn.net/sweetorange_/article/details/130167646

版权

最好用的中文分词库cppjieba_ok【可直接编译使用用版】

中文分词技术在自然语言处理领域中扮演着非常重要的角色，其中cppjieba是一个高效、开源的中文分词库，它提供了多种分词算法和分词模式，并且能够支持多线程，能够大大提升分词效率。
本文将介绍cppjieba的使用方法和技术原理。
在这里插入图片描述

一、cppjieba的安装

cppjieba是一个C++库，可以在Linux、Windows、Mac OS等多个平台上使用，安装cppjieba也非常简单。

依赖：

g++ (version >= 4.1 is recommended) or clang++;
cmake (version >= 2.6 is recommended);

可以先从github上克隆cppjieba的代码仓库，然后进入cppjieba的源码目录，执行命令进行编译：

1.1 按照原作者方法：

在shell中：

git clone –depth=10 –branch=master git://github.com/yanyiwu/cppjieba.gitcd cppjieba
mkdir build
cd build
cmake ..
make

但是这里是有坑的，编译会报错：缺少limonp库。

这时可以在原作者主页的开源库里找到limonp,
再shell 中 cd 切换到 /cppjieba/include,
下载：git clone https://github.com/yanyiwu/limonp.git

1.2 可以直接使用以下我整理好的方法：

在shell中：

git clone https://github.com/sweetorange2022/jiebacpp_ok.git
cd cppjieba
mkdir build
cd build
cmake ..
make　-j4;

编译完成后，即可在编译目录中找到生成的动态库和静态库文件。

二、cppjieba的使用方法

2.1 cppjieba的基本使用方法

cppjieba提供了非常简单的API，使得使用者能够快速地进行中文分词：

cpp


#include "cppjieba/Jieba.hpp"

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错，我们一起出去玩吧！";
    std::vector<std::string> words;
    jieba.Cut(text, words, true);

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

result：

今天/天气/不错/，/我们/一起/出去/玩吧/！/

在这个例子中，首先创建了一个cppjieba::Jieba对象，用于进行分词。
然后，指定了分词所需的词典文件路径、模型文件路径、用户自定义词典路径、IDF值文件路径以及停用词文件路径。
接着，使用Jieba对象的Cut()函数对一个输入字符串进行分词，最后将分词结果输出到标准输出流中。

2.2 分词算法和分词模式：

除了基本的分词方法外，cppjieba还提供了多种分词算法和分词模式。

2.2.1 分词算法：

Jieba算法（cut_all = false）：根据词典和模型进行精确切分。

全模式算法（cut_all = true）：将所有可能的词语都列出来，速度很快，但准确率较低。

HMM算法（use_hmm = true）：基于隐马尔可夫模型进行切分，对未登录词的识别能力较强

2.2.2 分词模式：

搜索模式（mode = cppjieba::Search）：用于搜索引擎分词，适合于对文本进行深度分析，但速度较慢。

默认模式（mode = cppjieba::Default）：在精度和速度上做了一个平衡，适用于大多数分词场景。

MP模式（mode = cppjieba::MP）：适用于对速度要求很高的场景，但精度会有一定的下降。

2.3 多线程分词：

cppjieba还提供了多线程分词的功能，能够更快地进行分词。以下是使用多线程分词的例子：

cpp


#include "cppjieba/Jieba.hpp"
#include <thread>

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错，我们一起出去玩吧！";
    std::vector<std::string> words;

    std::vector<std::thread> threads;
    const int thread_count = 4;
    for (int i = 0; i < thread_count; i++) {
        threads.emplace_back([&jieba, &text, &words]() {
            std::vector<std::string> sub_words;
            jieba.Cut(text, sub_words, true);
            std::lock_guard<std::mutex> lock(words_mutex);
            words.insert(words.end(), sub_words.begin(), sub_words.end());
        });
    }

    for (auto& thread : threads) {
        thread.join();
    }

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

在这个例子中，首先创建了一个cppjieba::Jieba对象，然后指定了分词所需的文件路径。
接着，将要进行分词的文本分成多个部分，并使用多个线程进行分词。
最后，将所有的分词结果合并到一个结果集合中，并输出到标准输出流中。

2.4 cppjieba的分词流程：

加载词典文件：cppjieba使用jieba.dict.utf8和hmm_model.utf8文件构建前缀词典和HMM模型。这些文件包含了词语、词性、词频等信息。

构建前缀词典：将词典中的所有词语按照字典序排列，并将它们拆分成多个前缀。对于每个前缀，记录下对应的词语、词性和词频等信息。

分词：对于输入的文本，先进行基于HMM的分词，得到一个初步的分词结果。然后使用前缀词典进行匹配，得到所有可能的分词结果。最后，对这些结果进行歧义消解，找出最优的分词结果。

输出分词结果：将分词结果输出到标准输出流中，或者存储到文件中。

三、cppjieba的技术原理

cppjieba使用的分词算法是基于前缀词典和有向无环图的，主要包含：

前缀词典构建：将词典中的所有词语按照字典序排列，并将它们拆分成多个前缀。对于每个前缀，记录下对应的词语、词性和词频等信息。
DAG构建：将待分词的文本字符串构建成一个有向无环图（DAG），其中每个节点代表一个可能的词语，边表示词语之间的前后关系。DAG的构建可以通过动态规划算法实现。
最大概率路径计算：使用Viterbi算法计算出DAG中的最大概率路径，即分词结果。
未登录词分词：对于DAG中没有被词典覆盖的节点（即未登录词），根据节点周围的字符信息进行分词。
歧义消解：根据语言学和统计学的方法，对分词结果进行歧义消解，找出最优的分词结果。

总结

cppjieba是一个快速、准确、易用的中文分词库，它基于前缀词典和有向无环图的算法，能够有效地对中文文本进行高效的分词。
cppjieba支持多种分词模式和多线程分词，并且具有很好的可定制性和扩展性。
如果你需要在自然语言处理中使用中文分词功能，cppjieba是一个非常不错的选择。

甜橙の学习笔记

关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
5
评论
最好用的中文分词库cppjieba_ok【可直接编译使用用版】

cppjieba是一个快速、准确、易用的中文分词库，它基于前缀词典和有向无环图的算法，能够有效地对中文文本进行高效的分词。cppjieba支持多种分词模式和多线程分词，并且具有很好的可定制性和扩展性。如果你需要在自然语言处理中使用中文分词功能，cppjieba是一个非常不错的选择。
复制链接

扫一扫