序列标注应用与形式语言理论解析
1. 序列标注应用
1.1 形态句法属性
形态句法属性指的是除了词性之外,单词所具有的其他特征。在英语中,动词通过时态和体貌等特征区分,名词通过单复数区分,形容词通过程度区分等。不同语言的形态句法属性有所不同,如拉丁语和德语有格的标记,土耳其语有证据性的标记。
在通用依存(UD)语料库中,这些属性以特征 - 值对的形式为每个词元进行标注。例如,限定词 “the” 有两个属性标注:“PRONTYPE = ART” 表明它是一个冠词,“DEFINITE = DEF” 表明它是一个定冠词。动词也有多个属性标注,如助动词 “was” 是第三人称、单数、过去时态、限定形式(变位)且为陈述语气;主要动词 “destroyed” 是过去分词形式、过去时态且为被动语态。
对于自动标注形态句法属性的研究相对较少。目前有以下几种方法:
- 支持向量机分类模型 :Faruqui 等人(2016)使用最小特征集训练支持向量机分类模型,特征集包括单词本身、其前缀和后缀,以及每个单词及其相邻单词的所有可能形态句法属性的类型级信息。
- 条件随机场(CRF) :Mueller 等人(2013)使用条件随机场,标签空间由所有观察到的形态句法属性组合构成。通过将特征空间分解为单个属性,并修剪网格中的路径来管理庞大的标签空间。
- 双向 LSTM 序列模型 :Pinter 等人(2017)训练双向 LSTM 序列模型,输入层和隐藏向量在属性间共享,但每个属性有自己的输出层,最终通过 softmax 对所有属性值进行分类
超级会员免费看
订阅专栏 解锁全文
1184

被折叠的 条评论
为什么被折叠?



