CppJieba 中文分词库教程

宁菁令

于 2024-08-08 07:51:54 发布

阅读量384

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00538/article/details/141011642

版权

CppJieba 中文分词库教程

cppjieba"结巴"中文分词的C++版本项目地址:https://gitcode.com/gh_mirrors/cp/cppjieba

项目介绍

CppJieba 是 "结巴" 中文分词的 C++ 版本。它提供了高效的中文分词功能，支持 UTF-8 和 GBK 编码，但推荐使用 UTF-8 编码。CppJieba 的源代码都写进头文件中，只需 #include 即可使用，无需链接其他依赖库。项目自带较为完善的单元测试，核心功能中文分词的稳定性接受过线上环境检验。

项目快速启动

安装依赖

确保你已经安装了以下软件：

g++ (version >= 4.1 recommended) or clang++
cmake (version >= 2.6 recommended)

下载和编译

git clone --depth=10 --branch=master https://github.com/yanyiwu/cppjieba.git
cd cppjieba
git submodule init
git submodule update
mkdir build
cd build
cmake ..
make

示例代码

以下是一个简单的示例代码，展示了如何使用 CppJieba 进行中文分词：

#include "cppjieba/Jieba.hpp"
#include <iostream>

using namespace std;

const char* const DICT_PATH = "dict/jieba.dict.utf8";
const char* const HMM_PATH = "dict/hmm_model.utf8";
const char* const USER_DICT_PATH = "dict/user.dict.utf8";
const char* const IDF_PATH = "dict/idf.utf8";
const char* const STOP_WORD_PATH = "dict/stop_words.utf8";

int main() {
    cppjieba::Jieba jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
    vector<string> words;
    string sentence = "他来到了网易杭研大厦";
    jieba.Cut(sentence, words, true);
    cout << limonp::Join(words.begin(), words.end(), "/") << endl;
    return 0;
}

编译并运行示例代码：

g++ -o demo demo.cpp -std=c++11
./demo

应用案例和最佳实践

应用案例

CppJieba 可以广泛应用于各种需要中文分词的场景，例如搜索引擎、文本分析、自然语言处理等。以下是一个简单的应用案例：

#include "cppjieba/Jieba.hpp"
#include <iostream>
#include <fstream>

using namespace std;

const char* const DICT_PATH = "dict/jieba.dict.utf8";
const char* const HMM_PATH = "dict/hmm_model.utf8";
const char* const USER_DICT_PATH = "dict/user.dict.utf8";
const char* const IDF_PATH = "dict/idf.utf8";
const char* const STOP_WORD_PATH = "dict/stop_words.utf8";

int main() {
    cppjieba::Jieba jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
    ifstream ifs("input.txt");
    string line;
    while (getline(ifs, line)) {
        vector<string> words;
        jieba.Cut(line, words, true);
        cout << limonp::Join(words.begin(), words.end(), "/") << endl;
    }
    ifs.close();
    return 0;
}