处理流程:
1、分词(sentence segmentation),输出tokenization
2、词性标注(part of speech tagging),输出post-tagged sentences。NP-分块信息最有用的来源之一是词性标记。这是在我们的信息提取系统中进行词性标注的动机之一。
3、基于词性标注的实体识别(entity recognition),输出chunked sentence
4、基于实体识别的关系识别(relation recognition),输出relations
最终输出结构为(entity,relation,entity)元祖的链表