利用词典进行命名实体

1.本文提供了只需要提供字典的情况下,实施NER任务,并对进行了标注数据的对比试验。

2.使用未标记数据和命名实体字典来执行NER的方法。作者将任务表示为正未标记(PU, Positive-Unlabeled)学习问题,并由此提出一种PU学习算法来执行该任务。该方法的一个关键特征是它不需要字典标记句子中的每个实体,甚至不要求字典标记构成实体的所有单词,这大大降低了对字典质量的要求。文章最后对四个公共NER数据集的实验研究,证明了使用PU算法进行学习如同使用完全标记的数据进行监督学习一样,能够无偏差地且一致地估计任务损失。

3.因为字典不能够保证包含句子中所有的实体单词,所以本文并没有使用传统的BIO或者BIOES标注模式,而是把标注问题转化为二分类问题进行处理。实体单词被映射到正类,非实体单词被映射到负类。

4.上下文无关的词语表示包含三部分的特征,分别是字符级别表示ec(w) ,词级别表示ew(w) 和人工设计的特征eh(w) 。 作者使用单层卷积神经网络模型对字符嵌入序列进行处理,得到字符序列表示ec(w) 。之后,作者使用经过微调的GloVe词嵌入表示作为词级别表示ew(w) 。最后,作者定义了一个指示符,以消除大小写产生的问题。作者使用allCaps, upperInitial, lowercase, maxedCaps, noinfo五个特征来对指示符进行处理,如果任一特征被激活,则将指示符置为1,否则为0,然后将这三部分特征串联起来(concatenate)作为词语表示,

5.经过训练的PU分类器可以用来进行标签预测。因为每个实体类型有着不同的分类器,所以同一个实体单词可能被分类为不同的正类。所以作者选取概率最大的正类作为该单词的类别,同时其他类型分类器的预测归零。解决正类冲突之后,作者使用最大匹配的原则对连续实体单词进行分类,得到最终的实体单词标签预测。

6.在PU学习中,作者使用已标记的正数据经验风险去估计正数据的期望风险。这要求正数据xpi x_i^px 
ip与分布P(X|Y=1)相互独立。对于一个很小的字典来说,这个要求很难达到,所以作者使用了AdaSampling的方法进行词典扩充。此方法为不断迭代PU学习算法,并把每一次标注出的结果加入到字典中,直到字典的大小不在变化

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值