最近看到CCKS2020基于本体的金融知识图谱自动化构建技术 相关技术方案。
先附上部分参考链接:
其它的我暂时没找到,有看到的小伙伴可以留言,感谢~~
这块内容比较零散,不做系统介绍。
技术细节介绍
想要整理一下相关技术方案设计的技术
1. 多示例学习
多示例学习(Multiple Instance Learning)
将训练集划分成多个具有分类标签的多实例包(bag),每个包含有若干个实例(instance)。多示例学习通过对包中实例的学习,训练出一个能够对包进行分类的分类器,并将该分类器应用于对未知标签的多示例包的预测。
多示例学习训练过程中,如何从包中选择正实例用于关系分类,主要有三种思想:
①基于“至少一个”假设,即假设包中至少有一个句子实例可以代表实体对之间的关系,这时任务目标就是训练一个分类器,将包中最有可能代表实体间关系的句子作为输入,对关系进行分类。这种思想就是PCNN-One模型采用的方法。
② 基于注意力机制,使用一个能代表实体间关系的向量和包中的句子实例求相似度,得到一个权重参数,对不同的实例分配以不同的权重再求和,通过注意力的方式减小噪声数据的影响。这种思想是PCNN-ATT模型采用的方法。
③使用强化学习的方式,进行去噪,筛选出正实例进行关系分类。
2. PCNN
貌似是做多示例学习关系抽取的模型,没细看,感觉还是要看论文才比较实在~
3. Snowball
Neural Snowball for Few-Shot Relation Learning
清华 腾讯出品,19年的,few shot的一篇论文,用来做关系抽取
4. 文档级关系抽取
涉及很多图的东西
5. NER中的词汇增强
NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)
Simple-Lexicon和FLAT是20年最新的论文,效果相对较好,Simple-Lexicon实现起来比较简单。
注意,这里是词汇增强,不是数据增强,逻辑上是讲分词信息加入到模型输入里,知道模型得到更好的NER效果。
其实之前CRF方法尝试过,单字的模型比分词为token的模型效果好一些,同时在单字的基础上加上了分词的结果作为特征。另外也有很多模型输入会对词性进行编码加入到输入中,但是相对来说分类等任务效果不大,NER影响比较大一些。单字模型虽然效果较好,但是实际应用中会存在一些抽取实体边界错误问题。