词性标记(Part-of-speech tags)
例如“noun”、"verb” 、 “preposition”这些词性标记(POS)分类指定一组词确定的语法属性。在英语和其他语言中存在有几种词性标记分类方案或者标记集。
TurboTagger分配了一种叫做宾州树库标记(Penn Treebank POS tag)给输入的句子中每一个词,
noun 名词 |
| ||||||||||||||||
verb 动词 |
| ||||||||||||||||
pronoun 代词 |
| ||||||||||||||||
adjective 形容词 | JJ | ||||||||||||||||
adverb 副词 | RB | ||||||||||||||||
determiner 限定词 | DT | ||||||||||||||||
coordinating conjunction 并列连词 | CC | ||||||||||||||||
possessive ending 所有格结尾 | POS | ||||||||||||||||
to | TO | ||||||||||||||||
cardinal number 纯数 | CD | ||||||||||||||||
preposition or subordinating conjunction 介词或从属连词 | IN | ||||||||||||||||
hyphen in split compounds 分割复合词的连字符 | HYPH | ||||||||||||||||
electronic address (URL or email) 电子地址(URL地址或者邮箱号码) | ADD | ||||||||||||||||
affix 词缀 | AFX | ||||||||||||||||
(superfluous) non-final punctuation (非必要的)非终结符的标点 | NFP |
其中后四个是补充Penn Treebank POS tag的额外的标签。
依赖解析(Dependency parses)
依赖解析依据标记之间的二元关系表达了一个句子的语法结构。例如,一个动词连接到它的从属单元格(参数/修饰),所有的这些依赖构成了一个树或者一个树形的图,Stanford-dependencies是一个代表性的工作,它分类/标记了head-dependent关系类型(这里我不知道怎么翻译好T_T)。包含了:
nsubj (nominal subject/名词性主语),dobj (direct object/直接宾语),iobj (indirect object/间接宾语),aux (auxiliary verb/助动词),prep (prepositional phrase/介词短语), pobj (object of preposition/介词宾语),det (determiner/限定词),nn(noun compound modifier/复合名词修饰语),amod (adjectival modifier/形容词修饰语),advmod (adverbial modifier/状语修饰语),punct(punctuation/标点符号)。下面是一个解析的例子。
注意,这个解析例子中存在了一些错误,Have被错误标记成了专有名词NNP,并给了名词性主语nsubj的关系,但是它应该被标记为现在时态的普通动词和助动词的关系。
以上翻译原文链接:About Syntactic & Semantic Parsing