20、序列标注应用与形式语言理论解析

序列标注应用与形式语言理论解析

1. 序列标注应用

1.1 形态句法属性

形态句法属性指的是除了词性之外,单词所具有的其他特征。在英语中,动词通过时态和体貌等特征区分,名词通过单复数区分,形容词通过程度区分等。不同语言的形态句法属性有所不同,如拉丁语和德语有格的标记,土耳其语有证据性的标记。

在通用依存(UD)语料库中,这些属性以特征 - 值对的形式为每个词元进行标注。例如,限定词 “the” 有两个属性标注:“PRONTYPE = ART” 表明它是一个冠词,“DEFINITE = DEF” 表明它是一个定冠词。动词也有多个属性标注,如助动词 “was” 是第三人称、单数、过去时态、限定形式(变位)且为陈述语气;主要动词 “destroyed” 是过去分词形式、过去时态且为被动语态。

对于自动标注形态句法属性的研究相对较少。目前有以下几种方法:
- 支持向量机分类模型 :Faruqui 等人(2016)使用最小特征集训练支持向量机分类模型,特征集包括单词本身、其前缀和后缀,以及每个单词及其相邻单词的所有可能形态句法属性的类型级信息。
- 条件随机场(CRF) :Mueller 等人(2013)使用条件随机场,标签空间由所有观察到的形态句法属性组合构成。通过将特征空间分解为单个属性,并修剪网格中的路径来管理庞大的标签空间。
- 双向 LSTM 序列模型 :Pinter 等人(2017)训练双向 LSTM 序列模型,输入层和隐藏向量在属性间共享,但每个属性有自己的输出层,最终通过 softmax 对所有属性值进行分类

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值