分块
分块是一种以单词及其词性标注作为输入的算法。它处理这些单独的标记及其标签,以查看它们是否可以组合。一个或多个单独标记的组合称为块,分配给这种块的词性标注称为分块标签。
·名词短语(NP):这些短语以名词为词头。它们充当动词或动词短语的主语或宾语。
·动词短语(VP):这些短语以动词为词头。
·形容词短语(ADJP):这些短语以形容词为词头。描述和限定名词或代词是形容词短语的主要功能。它们直接位于名词或代词之前或之后。
·副词短语(ADVP):这些短语以副词为词头。通过提供描述和限定名词和动词的细节,它们被用作名词和动词的修饰语。
·介词短语(PP):这些短语以介词为词头。它们在时间或空间上定位一个行为或实体。
分块是在词性标注已经应用于语料库之后执行的。这允许文本被分解成最简单的形式(单词的标记),对其结构进行分析,然后再组合成有意义的更高级的块。分块也有利于命名实体识别的过程。
加缝
加缝是分块的延伸,分块是在加缝后进行的。分块之后,你有分块及其分块标签,以及单个单词及其词性标注。通常,这些多余的词是不必要的。它们对理解自然语言的最终结果或整个过程没有贡献,因此是一种麻烦。加缝的过程通过提取分块来帮助我们处理这个问题,分块标注形成标注语料库,从而去除不必要的位。这些有用的分块一旦从标注语料库中提取出来,就被称为缝隙。
命名实体识别
这是信息提取过程中的第一步。信息提取