什么是nlu?
即自然语言理解(Natural Language Understanding),wiki中解释为 deals with machine reading comprehension。(◔◡◔)
jieba+mitie+sklearn 的不足之处:
1.官方文档mitie训练建议所需内存128G
2.针对用户所说的一句话存在多个意图,无法识别
基于tensorflow的pipeline尝试解决以上两个问题。这里pipeline定义的是如何解析用户的输入,分词(符号化),以及特征提取的方式。pipeline:定义如下
pipeline:
- name: "intent_featurizer_count_vectors"
- name: "intent_classifier_tensorflow_embedding"
intent_tokenization_flag: true
intent_split_symbol: "+"
intent_featurizer_count_vectors:用于特征提取
intent_classifier_tensorflow_embedding:采用tensorflow做意图分类
intent_tokenization_flag: true:告诉模型这是多意图,需要根据占位符进行意图切分
intent_split_symbol: "+" 多意图间按“+”切分
准备训练数据:
数据格式如下:
## intent: meetup
- I am new to t