- Bamboo Framework的核心主要由Processors和Parsers两层构成,配置选项和参数主要对应Parsers层,即每个Parser都有自己的配置文件
- 配置文件和Parser的对应关系:
- /opt/bamboo/etc/ugm_seg.conf - 基于Unigram算法的分词Parser
- /opt/bamboo/etc/crf_seg.conf - 基于CRF模型的分词Parser
- /opt/bamboo/etc/crf_pos.conf - 基于CRF模型的词性标注Parser
- /opt/bamboo/etc/crf_ner_nr.conf - 基于CRF模型的人名识别Parser
- /opt/bamboo/etc/crf_ner_ns.conf - 基于CRF模型的地名识别Parser
- /opt/bamboo/etc/crf_ner_nt.conf - 基于CRF模型的机构名识别Parser
- /opt/bamboo/etc/keyword.conf - 主题词抽取Parser
- /opt/bamboo/etc/build_settings - autobuild训练程序
Bamboo配置文件格式
- 以#开头的行为注释行
- 可以使用$符号进行变量引用,可以使用\逃逸
- 每一行配置为一个Key-Value对,用等号分割
分词主要参数
- root : bamboo的根目录,默认是/opt/bamboo
- processor_root : processor的根目录,默认是/opt/bamboo/processor/
- max_token_length : 最大分词长度
- crf_seg_model : 分词CRF模型文件的路径
- use_single_combine: 是否使用单字合并
- single_combination_lexicon: 单字合并字典路径
- use_break: 是否使用分词打散
- break_lexicon: 分词打散字典路径
- break_min_length: 需要打散单词的最短长度
- ele_lambda: unigram分词的ELE平滑系数
词性标注主要参数
- 词性标注前需要先CRF分词,这部分和CRF分词参数一致
- crf_pos_model : 词性标注CRF模型文件的路径
命名实体识别主要参数
- ner_output_type : 实体识别的输出类型,
- 0:只输出实体词
- 1:输出所有词,实体词有标志位
- crf_nernr/ns/ntmodel : 命名实体CRF模型文件的路径
主题词抽取主要参数
- ke_token_id_dict : 词语的id文件
- ke_token_aff_dict : 词与词之间的同现关系(语料统计)
- ke_token_df_dict : 词的文档频率(语料统计)
- ke_filter_dict : 过滤词表
- ke_top_n : 输出的主题词数量
- ke_algorithm : 主题词的抽取算法类型,默认是基于图的,可以选择传统的TF/IDF的,前者质量相对好,后者速度相对快
- 主题词抽取在算法上还有一些数学参数,可以参见配置文件的内部注释