1.本文提供了只需要提供字典的情况下,实施NER任务,并对进行了标注数据的对比试验。
2.使用未标记数据和命名实体字典来执行NER的方法。作者将任务表示为正未标记(PU, Positive-Unlabeled)学习问题,并由此提出一种PU学习算法来执行该任务。该方法的一个关键特征是它不需要字典标记句子中的每个实体,甚至不要求字典标记构成实体的所有单词,这大大降低了对字典质量的要求。文章最后对四个公共NER数据集的实验研究,证明了使用PU算法进行学习如同使用完全标记的数据进行监督学习一样,能够无偏差地且一致地估计任务损失。
3.因为字典不能够保证包含句子中所有的实体单词,所以本文并没有使用传统的BIO或者BIOES标注模式,而是把标注问题转化为二分类问题进行处理。实体单词被映射到正类,非实体单词被映射到负类。
4.上下文无关的词语表示包含三部分的特征,分别是字符级别表示ec(w) ,词级别表示ew(w) 和人工设计的特征eh(w) 。 作者使用单层卷积神经网络模型对字符嵌入序列进行处理,得到字符序列表示ec(w) 。之后,作者使用经过微调的GloVe词嵌入表示作为词级别表示ew(w) 。最后,作者定义了一个指示符,以消除大小写产生的问题。作者使用allCaps, upperInitial, lowercase, maxedCaps, noinfo五个特征来对指示符进行处理,如果任一特征被激活,则将指示符置为1,否则为0,然后将这三部分特征串联起来(concatenate)作为词语表示,
5.经过训练的PU分类器可以用来进行标签预测。因为每个实体类型有着不同的分类器,所以同一个实体单词可能被分类为不同的正类。所以作者选取概率最大的正类作为该单词的类别,同时其他类型分类器的预测归零。解决正类冲突之后,作者使用最大匹配的原则对连续实体单词进行分类,得到最终的实体单词标签预测。
6.在PU学习中,作者使用已标记的正数据经验风险去估计正数据的期望风险。这要求正数据xpi x_i^px
ip与分布P(X|Y=1)相互独立。对于一个很小的字典来说,这个要求很难达到,所以作者使用了AdaSampling的方法进行词典扩充。此方法为不断迭代PU学习算法,并把每一次标注出的结果加入到字典中,直到字典的大小不在变化
233

被折叠的 条评论
为什么被折叠?



