KG摘要--大白话

最新推荐文章于 2024-09-09 10:31:55 发布

アナリスト

最新推荐文章于 2024-09-09 10:31:55 发布

阅读量185

点赞数

文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/fearlesslpp/article/details/108698653

版权

什么是实体抽取？怎么做？

分词和NER联合训练，能够提高NER的性能；（中文的分词会影响后面的NER；比如‘南京市长江大桥’这个例子；）从两种语言（Bilingual Constraints，比如汉语和英语）训练可得到效果更好的NER；

什么是NER？
The task of named entity recognition is to assign a named entity label to every word in a sentence；一般用IOB格式标注，即Inside, Outside, Beginning；还可以用IOBES，是IOB的一种变体；研究表明 using a more expressive tagging scheme like IOBES improves model performance marginally；

百度的BI-LSTM-CRF是第一个使用BI-LSTM-CRF做NER的模型；由于bi-lstm，因此能够同时利用past and future input features；另外由于CRF，因此能够使用sentence level tag information；可以用Adversarial Transfer Learning和Self-Attention Mechanism来训练中文NER；

什么是关系抽取？怎么做？

bootstrapping, unsupervised relation discovery and supervised classification；
（远程监督是在bootstrap之后提出的）（可以看成被database监督着，而不是被labeled text监督；）
在远程监督之前（2009之前）关系抽取还有基于逻辑回归的方法、基于核函数的方法、基于条件随机场的方法等；

远程监督的含义和假设：如果知识库存在两个实体的关系，那么认为所有出现这两实体的句子都在表达这种关系；基于假设进行自动标记；以freebase为例，苹果和乔布斯，创始人关系；假设太强，导致错误的标记；远程监督用来生成训练数据，不是关系抽取的方法；

远程监督的缺点：wrong label、noise导致较差的性能；

PCNN和multi-instance learning解决以上问题；

一个开源实现是清华的OpenNRE；

传统的RE，分为NER和RC两步；

此外，还有实体和关系联合抽取，听说比较难做；（例如CoType，LSTM-CRF、 LSTM-LSTM、LSTM-LSTM-Bias，把关系抽取转换成序列标注任务）

关系抽取也经历了从ML、CNN、RNN（LSTM、BiLSTM、GRU）、Attention、BERT的过程，甚至有AT（对抗训练，Adversarial training）以及RL做的；

关系抽取是否能看成是一种端到端的序列标注问题？能

什么是事件抽取？怎么做？

EE主要有两种方法：joint approach和 pipelined approach；前者同时predicts event triggers and arguments；后者首先performs trigger prediction，然后identifies arguments in separate stages.
联合抽取的好处是，可以阻止error propagation，以及从全局对 inter-dependencies 建模；

Event Detection（ED）是事件抽取的子任务；（ED指的就是trigger的识别）ED可看成是一种多分类任务，也可看成是sequence labelling task；

搞清楚什么是Event trigger、Event arguments、Event mention；

思考：知识图谱为啥要进行事件抽取？

一个经典模型DMCNN，使用多个max-pooling layer，解决one sentence may contain two or more events；

什么是实体消歧？怎么做？

实体消歧是实体链接的一部分（后者还包括共指消解），是专门用于解决同名实体产生歧义问题的技术；Named Entity Disambiguation （NED）的数据集有the CoNLL dataset and the TAC 2010 dataset；

什么是实体链接Entity Linking (EL）？

EL的过程中会有歧义，比如对‘Michael Jordan’进行EL，发现可以是NBA篮球运动员，也可以是ML教授；实体链接属于知识融合；后者还包括知识合并；可以利用random walk或Referent Graph算法（A Graph-Based Method）来解决EL问题；

什么是知识图谱的补全？

尽管图谱有很多实体和关系，它也是不完整的；包括entity prediction和Relation Prediction；

KBE（Knowledge base embedding）是什么？作用？

知识图谱的补全、Relation Inference（推理）；辅助关系抽取；且传统的SPO无法扩展规模，KBE是对符号表示的补充；Trans(E, H, R, and D)和TranSparse、KG2E、PTransE、TransG等；

本体和实体的关系？

实体是strings，而本体是things；
番茄和西红柿，有些文本会写番茄，有些会写西红柿，但它们指的是客观世界的同一事物（同一个客体）；

知识图谱一定要用本体？不是；可以不构建本体，认准三元组，kg就是一个实体与实体或者与值的这种关联关系；

知识融合需要用到本体：
通过数据映射技术，建立本体中术语和不同数据源抽取知识中词汇的映射关系，进而将不同数据源的数据融合在一起；同时不同源的实体可能会指向现实世界的同一个客体，这时需要使用实体匹配将不同数据源相同客体的数据进行融合；

什么是本体推理？
从一个已有的知识图谱，利用规则，推理出新的实体间关系，还可以对知识图谱进行逻辑的冲突检测；包括owl推理和rdf推理；

什么是本体匹配？怎么做？
本体匹配算法分为模式匹配、实例匹配；（即schema-based and instance-based）从技术层面，本体匹配可分为启发式方法、概率方法、基于图的方法、基于学习的方法和基于推理的方法；

什么是知识融合？怎么做？

知识融合技术中，本体匹配扮演着非常重要的角色，提供了概念或者实体之间的对应关系；知识融合需要考虑 threshold；知识融合需要同时考虑数据层和模式层的合并！！！

什么是知识图谱的数据层和模式层？

数据层是三元组构成的图，保存在图数据库中；
模式层在数据层之上，是知识图谱的核心；模式层存储的是经过提炼的知识，通常采用本体库来管理；
（本体库在知识图谱中的地位相当于知识库的模具，通过本体库来规范数据层的一系列事实表达，拥有本体库的知识库冗余知识较少、且层次结构较强；）

自顶向下和自底向上构建知识图谱的区别？

自顶向下是先为知识图谱定义好本体与数据模式，再将实体加入到知识库；（即先模式层，再数据层，因此本体构建在知识抽取之前）该构建方式需要利用现有的结构化知识库作为其基础知识库，因此难度和工作量较小；（例如Freebase就是从维基百科得到的）

自底向上是从一些开放链接数据中提取出实体，选择置信度较高的加入知识库，再构建顶层的本体模式（即先数据层，再模式层，因此本体构建在知识抽取之后）目前大多数知识图谱都采用自底向上的方式构建；其中最典型就是Google的Knowledge Vault；

知识图谱的构建步骤？（以自顶向下为例，方便讲解知识融合，涉及模式层和数据层的融合）

0）本体构建（模式层）
1）爬取数据（结构化、半结构化、非结构化）
2）实体识别、关系抽取、事件抽取
3）知识融合（实体链接、知识合并）
4）入库（知识存储）
5）知识计算和推理
6）kbqa、语义搜索、推荐等

参考资料：
https://www.cnblogs.com/theodoric008/p/7874373.html （实体关系抽取 entity relation extraction 文献阅读总结）
http://www.cipsc.org.cn/qngw/?p=890 （基于深度学习的关系抽取）
https://github.com/lvjianxin/Relationship-extraction （中文关系抽取）
https://www.sohu.com/a/165856071_465975 （关于远程监督，我们来推荐几篇值得读的论文）
https://www.dazhuanlan.com/2019/10/04/5d9623fc85a15/（知识图谱：知识表示之TransH模型）
https://www.cnblogs.com/Luv-GEM/p/11598294.html（关系抽取之远程监督算法）
https://zhuanlan.zhihu.com/p/39205829 （知识图谱入门 (三) 知识抽取）
https://www.cnblogs.com/chenyusheng0803/p/11574318.html （事件抽取的简单方法）
https://www.biendata.com/competition/ccks_2019_4/（一个事件抽取比赛）
https://aistudio.baidu.com/aistudio/competition/detail/32?qq-pf-to=pcqq.group （2020语言与智能技术竞赛：事件抽取任务）
https://blog.csdn.net/ZJRN1027/article/details/80590810 （揭开知识库问答KB-QA的面纱）

アナリスト

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KG摘要--大白话

什么是事件抽取？怎么做？EE主要有两种方法：joint approach和 pipelined approach；前者同时predicts event triggers and arguments；后者首先performs trigger prediction，然后identifies arguments in separate stages.联合抽取的好处是，可以阻止error propagation，以及从全局对 inter-dependencies 建模Event Detection（ED）.
复制链接

扫一扫