知识图谱自动构建技术

最近看到CCKS2020基于本体的金融知识图谱自动化构建技术 相关技术方案。

先附上部分参考链接:

第五名方法总结

其它的我暂时没找到,有看到的小伙伴可以留言,感谢~~

 

这块内容比较零散,不做系统介绍。

 

技术细节介绍

想要整理一下相关技术方案设计的技术

1. 多示例学习

多示例学习(Multiple Instance Learning)

多示例学习 Multi-Instance Learning

将训练集划分成多个具有分类标签的多实例包(bag),每个包含有若干个实例(instance)。多示例学习通过对包中实例的学习,训练出一个能够对包进行分类的分类器,并将该分类器应用于对未知标签的多示例包的预测。

 

多示例学习训练过程中,如何从包中选择正实例用于关系分类,主要有三种思想:

①基于“至少一个”假设,即假设包中至少有一个句子实例可以代表实体对之间的关系,这时任务目标就是训练一个分类器,将包中最有可能代表实体间关系的句子作为输入,对关系进行分类。这种思想就是PCNN-One模型采用的方法。

② 基于注意力机制,使用一个能代表实体间关系的向量和包中的句子实例求相似度,得到一个权重参数,对不同的实例分配以不同的权重再求和,通过注意力的方式减小噪声数据的影响。这种思想是PCNN-ATT模型采用的方法。

③使用强化学习的方式,进行去噪,筛选出正实例进行关系分类。

2. PCNN

pcnn关系抽取论文阅读总结:尽量细节表现出来

知识图谱关系抽取之PCNN——tensorflow实现

貌似是做多示例学习关系抽取的模型,没细看,感觉还是要看论文才比较实在~ 

3. Snowball

Neural Snowball for Few-Shot Relation Learning
清华 腾讯出品,19年的,few shot的一篇论文,用来做关系抽取

 

4. 文档级关系抽取

文档级关系抽取方法总结

涉及很多图的东西

5. NER中的词汇增强

NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)

Simple-Lexicon和FLAT是20年最新的论文,效果相对较好,Simple-Lexicon实现起来比较简单。

注意,这里是词汇增强,不是数据增强,逻辑上是讲分词信息加入到模型输入里,知道模型得到更好的NER效果。

其实之前CRF方法尝试过,单字的模型比分词为token的模型效果好一些,同时在单字的基础上加上了分词的结果作为特征。另外也有很多模型输入会对词性进行编码加入到输入中,但是相对来说分类等任务效果不大,NER影响比较大一些。单字模型虽然效果较好,但是实际应用中会存在一些抽取实体边界错误问题。

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微知girl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值