JiebaTokenizer文档
简介
Jieba中文分词器
输出
token
用于用户消息、响应(如果存在)和意图(如果指定)
依赖
Nothing
描述
使用专门针对中文的Jieba分词器。这只适用于中文。
要使用Jiebatokenizer,您需要使用Pip3安装Jieba安装Jieba
配置
用户的自定义字典文件可以通过字典路径指定文件的目录路径来自动加载。如果字典路径为None(默认值),则不会使用自定义字典。
pipeline:
- name: "JiebaTokenizer"
dictionary_path: "path/to/custom/dictionary/dir"
# Flag to check whether to split intents
"intent_tokenization_flag": False
# Symbol on which intent should be split
"intent_split_symbol": "_"
# Regular expression to detect tokens
"token_pattern": None
参考
https://rasa.com/docs/rasa/components#jiebatokenizer