JiebaTokenizer文档

最新推荐文章于 2023-11-12 20:57:54 发布

发呆的比目鱼

最新推荐文章于 2023-11-12 20:57:54 发布

阅读量618

点赞数

分类专栏： RASA与对话系统文章标签：自然语言处理算法深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42486623/article/details/121607528

版权

Jieba 中文分词自定义字典意图分词 tokenizer

关键词由CSDN通过智能技术生成

RASA与对话系统专栏收录该内容

28 篇文章 7 订阅

订阅专栏

JiebaTokenizer文档

简介

Jieba中文分词器

输出

token用于用户消息、响应(如果存在)和意图(如果指定)

依赖

Nothing

描述

使用专门针对中文的Jieba分词器。这只适用于中文。

要使用Jiebatokenizer，您需要使用Pip3安装Jieba安装Jieba

配置

用户的自定义字典文件可以通过字典路径指定文件的目录路径来自动加载。如果字典路径为None(默认值)，则不会使用自定义字典。

pipeline:
- name: "JiebaTokenizer"
  dictionary_path: "path/to/custom/dictionary/dir"
  # Flag to check whether to split intents
  "intent_tokenization_flag": False
  # Symbol on which intent should be split
  "intent_split_symbol": "_"
  # Regular expression to detect tokens
  "token_pattern": None