最好用的中文分词库cppjieba_ok【可直接编译使用用版】

最好用的中文分词库cppjieba_ok【可直接编译使用用版】

中文分词技术在自然语言处理领域中扮演着非常重要的角色,其中cppjieba是一个高效、开源的中文分词库,它提供了多种分词算法和分词模式,并且能够支持多线程,能够大大提升分词效率。
本文将介绍cppjieba的使用方法和技术原理。
在这里插入图片描述

一、cppjieba的安装

cppjieba是一个C++库,可以在Linux、Windows、Mac OS等多个平台上使用,安装cppjieba也非常简单。

依赖:

  • g++ (version >= 4.1 is recommended) or clang++;
  • cmake (version >= 2.6 is recommended);

可以先从github上克隆cppjieba的代码仓库,然后进入cppjieba的源码目录,执行命令进行编译:

1.1 按照原作者方法:

在shell中:

git clone –depth=10 –branch=master git://github.com/yanyiwu/cppjieba.gitcd cppjieba
mkdir build
cd build
cmake ..
make

但是这里是有坑的,编译会报错:缺少limonp库。

这时可以在原作者主页的开源库里找到limonp,
再shell 中 cd 切换到 /cppjieba/include,
下载:git clone https://github.com/yanyiwu/limonp.git

1.2 可以直接使用以下我整理好的方法:

在shell中:

git clone https://github.com/sweetorange2022/jiebacpp_ok.git
cd cppjieba
mkdir build
cd build
cmake ..
make -j4;

编译完成后,即可在编译目录中找到生成的动态库和静态库文件。

二、cppjieba的使用方法

2.1 cppjieba的基本使用方法

cppjieba提供了非常简单的API,使得使用者能够快速地进行中文分词:

cpp


#include "cppjieba/Jieba.hpp"

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;
    jieba.Cut(text, words, true);

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

result:
今天/天气/不错/,/我们/一起/出去/玩吧/!/

在这个例子中,首先创建了一个cppjieba::Jieba对象,用于进行分词。
然后,指定了分词所需的词典文件路径、模型文件路径、用户自定义词典路径、IDF值文件路径以及停用词文件路径。
接着,使用Jieba对象的Cut()函数对一个输入字符串进行分词,最后将分词结果输出到标准输出流中。

2.2 分词算法和分词模式:

除了基本的分词方法外,cppjieba还提供了多种分词算法和分词模式。

2.2.1 分词算法:

Jieba算法(cut_all = false):根据词典和模型进行精确切分。

全模式算法(cut_all = true):将所有可能的词语都列出来,速度很快,但准确率较低。

HMM算法(use_hmm = true):基于隐马尔可夫模型进行切分,对未登录词的识别能力较强

2.2.2 分词模式:

搜索模式(mode = cppjieba::Search):用于搜索引擎分词,适合于对文本进行深度分析,但速度较慢。

默认模式(mode = cppjieba::Default):在精度和速度上做了一个平衡,适用于大多数分词场景。

MP模式(mode = cppjieba::MP):适用于对速度要求很高的场景,但精度会有一定的下降。

2.3 多线程分词:

cppjieba还提供了多线程分词的功能,能够更快地进行分词。以下是使用多线程分词的例子:

cpp


#include "cppjieba/Jieba.hpp"
#include <thread>

int main(int argc, char** argv) {
    cppjieba::Jieba jieba("../dict/jieba.dict.utf8",
                          "../dict/hmm_model.utf8",
                          "../dict/user.dict.utf8",
                          "../dict/idf.utf8",
                          "../dict/stop_words.utf8");

    std::string text = "今天天气不错,我们一起出去玩吧!";
    std::vector<std::string> words;

    std::vector<std::thread> threads;
    const int thread_count = 4;
    for (int i = 0; i < thread_count; i++) {
        threads.emplace_back([&jieba, &text, &words]() {
            std::vector<std::string> sub_words;
            jieba.Cut(text, sub_words, true);
            std::lock_guard<std::mutex> lock(words_mutex);
            words.insert(words.end(), sub_words.begin(), sub_words.end());
        });
    }

    for (auto& thread : threads) {
        thread.join();
    }

    for (auto& word : words) {
        std::cout << word << "/";
    }

    return 0;
}

在这个例子中,首先创建了一个cppjieba::Jieba对象,然后指定了分词所需的文件路径。
接着,将要进行分词的文本分成多个部分,并使用多个线程进行分词。
最后,将所有的分词结果合并到一个结果集合中,并输出到标准输出流中。

2.4 cppjieba的分词流程:

加载词典文件:cppjieba使用jieba.dict.utf8和hmm_model.utf8文件构建前缀词典和HMM模型。这些文件包含了词语、词性、词频等信息。

构建前缀词典:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。

分词:对于输入的文本,先进行基于HMM的分词,得到一个初步的分词结果。然后使用前缀词典进行匹配,得到所有可能的分词结果。最后,对这些结果进行歧义消解,找出最优的分词结果。

输出分词结果:将分词结果输出到标准输出流中,或者存储到文件中。

三、cppjieba的技术原理

cppjieba使用的分词算法是基于前缀词典和有向无环图的,主要包含:

  1. 前缀词典构建:将词典中的所有词语按照字典序排列,并将它们拆分成多个前缀。对于每个前缀,记录下对应的词语、词性和词频等信息。
  2. DAG构建:将待分词的文本字符串构建成一个有向无环图(DAG),其中每个节点代表一个可能的词语,边表示词语之间的前后关系。DAG的构建可以通过动态规划算法实现。
  3. 最大概率路径计算:使用Viterbi算法计算出DAG中的最大概率路径,即分词结果。
  4. 未登录词分词:对于DAG中没有被词典覆盖的节点(即未登录词),根据节点周围的字符信息进行分词。
  5. 歧义消解:根据语言学和统计学的方法,对分词结果进行歧义消解,找出最优的分词结果。

总结

  • cppjieba是一个快速、准确、易用的中文分词库,它基于前缀词典和有向无环图的算法,能够有效地对中文文本进行高效的分词。
  • cppjieba支持多种分词模式和多线程分词,并且具有很好的可定制性和扩展性。
  • 如果你需要在自然语言处理中使用中文分词功能,cppjieba是一个非常不错的选择。
  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
下面是使用 Elasticsearch 中的 IK 分词器进行停词和自定义词的步骤: 1. 安装 Elasticsearch 和 IK 分词器插件。 2. 创建自定义词文件,格式如下: ``` # 单个词语 词语1 词语2 ... # 带有词性的词语 词语1,词性1 词语2,词性2 ... ``` 注:词性可以不写,用逗号隔开。 3. 将自定义词文件放置在 Elasticsearch 安装目录下的 `plugins/ik/config/` 目录下。 4. 修改 IK 分词器配置文件,指定停用词文件和自定义词文件,示例如下: ``` { "index": { "analysis": { "analyzer": { "my_analyzer": { "type": "custom", "tokenizer": "ik_max_word", "filter": [ "my_stopwords", "my_synonyms" ] } }, "filter": { "my_stopwords": { "type": "stop", "stopwords_path": "stopwords.txt" }, "my_synonyms": { "type": "synonym", "synonyms_path": "synonyms.txt" } } } } } ``` 注:上面示例中使用了停用词文件和同义词文件,可以根据需要自行配置。 5. 创建索引并指定使用自定义分词器。 ``` PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "custom", "tokenizer": "ik_max_word", "filter": [ "my_stopwords", "my_synonyms" ] } }, "filter": { "my_stopwords": { "type": "stop", "stopwords_path": "stopwords.txt" }, "my_synonyms": { "type": "synonym", "synonyms_path": "synonyms.txt" } } } }, "mappings": { "properties": { "my_field": { "type": "text", "analyzer": "my_analyzer" } } } } ``` 6. 测试分词效果。 可以使用以下命令测试分词效果: ``` GET /my_index/_analyze { "analyzer": "my_analyzer", "text": "自定义分词器测试" } ``` 上述命令会返回分词结果,可以根据需要调整自定义词和停用词文件。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甜橙の学习笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值