1.ner问题
1.在目标域没有手工标记的数据时,NER怎么进行问题?
2.研究的目标域因为没有标注数,不可作迁移学习?
1.提出弱监督方案;依赖于广泛的标签函数来自动注释目标域的文本,然后使用Markov模型把这些标签整合在一起,把整合后的标注送入到最终的NER模型进行识别。做实验在实体层次上有7个百分点的提升。
2.提出ws在没有标签数据的情况下去bootstrap(提升)NER模型;这个方法主要是依赖标注函数去标注,然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有noise的标签,最后再采用最终的模型去进行训练
1. NER的广泛的标签函数集合,包括在不同文本领域上训练的神经模型、地名 词典、启发式函数和文档级约束。
2. 一种新的弱监督模型,适合于序列标签任务,并能够包括概率标签预测。
3. 标签函数和聚合模型开源
2.相关工作
2.1 无监督域自适应
无监督域适应试图调整来自源域的知识来预测通常具有本质上不同特征的目标域中的新实例。
方法:
使用pivots调整特征空间(SCL)
代维转换特征空间
划分成一般与域特征
多任务
基于域自适应的微调
2.2 聚合的注释
聚合来自多个来源的注释的方法在很大程度上集中于来自众包注释的嘈杂数据,Kim和Ghahramani(2012)的贝叶斯分类器组合方法使用预测的线性组合将多个独立分类器组合在一起。提出了一种基于条件随机场(crf)的模型参数学习方法。Nguyen等人(2017b)提出了一种隐马尔可夫模型(Hidden Markov Model)来聚合大众来源的序列标注,并发现显式地对标注器建模可以改进POS- tagging和NER。最后,Simpson和Gurevych(2019)提出了一种完全贝叶斯方法来处理聚合多个序列标注的问题,使用变分EM来计算模型参数的后向分布。
2.3 弱监督
远程监督
Snorkel 框架
深度概率逻辑:间接监督的统一框架
Swellshark
2020 - 噪声规则中的弱监督序列标记
2.4 集成学习
bagging, boosting and random forests
3.方法模型
3.1 Labelling functions – 标注函数
域外模型:使用已有的标注数据中进行训练模型,来自于四个数据(Ontonotes, CoNLL 2003,Broad Twitter Corpus, NER-annotated corpus of SEC filings)。
这些模型都是由biLSTM+CRF的模型训练出来的;
Gazetteers:Wikipedia,Geonames,Crunchbase Open Data Map, DBPedia
Heuristic functions(启发式): 每个函数专门识别特定类型的命名实体。例如 日期、时间、金额、百分比和基数/序号值这些特殊实体,是由专门的启发式来处理。
Document-level relations: 引入一个标签函数来捕获文档中的标签一致性约束;
3.2 Aggregation model
HMM模型。
为了确保更快的收敛,我们引入了一个新的约束到似然函数:对于每个标记位置i,对应的潜在标签si必须在至少一个标签函数中具有非零概率(否则该标签在该位置的可能性被设置为零)。换句话说,如果一个标签由至少一个标签函数产生,那么聚合模型只会预测一个特定的标签。这个简单的约束使EM收敛,因为它在每个时间步长的状态空间限制为几个可能的标签。
3.3 Sequence labelling model
一旦对来自目标域的文档的标签功能进行聚合,我们就可以在统一的注释上训练序列标签模型,而不会对使用的模型类型施加任何限制。为了利用潜在标签上的后边缘分布p̃s,优化应设法使p̃s的预期损失最小化:
式中hθ(·)为序列标记模型的输出。这相当于最小化神经模型输出和聚集模型产生的概率标签之间的交叉熵误差。
4.实验
数据集
CoNLL 2003,Reuters & Bloomberg
结果