er两个实体之间一定要有关系吗_Infomation Extraction(关系抽取)

最新推荐文章于 2022-11-29 18:07:20 发布

江西老表你好

最新推荐文章于 2022-11-29 18:07:20 发布

阅读量178

点赞数

文章标签： er两个实体之间一定要有关系吗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30420045/article/details/113070163

版权

大纲

介绍
基于规则的方法
基于监督学习的方法
半监督 (Bootstrap)

介绍

文本:张三毕业于北京大学，目前在北京工作。

通过命名识别我们获取了实体张三，北京，北京大学

接下来我们要识别的是两两之间的关系

一般在工业界项目里面，我们提前定义好关系 A,B,C,NA

然后用分类算法获得关系

Relation Extraction

1.基于规则

2.监督学习

3.半监督 & 无监督学习

Bootstrap
Distant Supervision
无监督学习

基于规则的方法

首先我们要建立Templetes

X is a Y

Y such as X

Y including X

Y especially X

我们可以在X和Y上面做一些条件，比如限制它们为Entity

首先我们找到实体

然后可以按照一定的规则或相似度匹配获得它们的关系

① (字符串刚好匹配) Exact Matching

② if |fruit - apple| < 10(relative distance) and contains("is a")

③ 计算(is a) 和 (is a .....)的相似度

基于规则的方法优点：

① 准确率高

②不需要样本

基于规则的方法缺点：

① low recall rate

由于规则的严格性和局限性我们会漏掉一些符合条件的关系，导致recall值太低，但是我们又不能把规则设计的太松，这样会导致准确率大大降低。

②成本(不是特别严重)

③规则库中会出现规则重叠

④规则冲突

规则之间有可以有一些设计

① 权重 & Priority

② 规则之间的层次关系

基于监督学习的方法

① 定义实体类型

② 训练数据

---实体标注好

---实体之间的关系标注好

NLP存在数据量少的情况，这种情况可以使用 Low-resource learning。

监督学习分成两部分,首先标记实体

American Airline, (a unit of AMR,immedicately match the movie,spokesman) Time Wanger said

American Airline

equation?tex=%5Crightarrow

ORG

Time Wanger

equation?tex=%5Crightarrow

PER

位置(两个实体间包含了多少个单词)

Classification Model

左边表示将没有关系表示成NA，进行一层建模分类

右边先用一个二分类将有关系和没关系的区分开来，在将有关系的进行分类, 这种叫做层次结构建模

具有层次结构的算法准确率比较高

半监督 (Bootstrap)

生成规则的前先把所有的实体标记出来，然后进行扫描，提取出规则。

Bootstrap 过程

这种方法有个问题是错误会叠加，最后导致准确率很低

Solutions：

① 人工参与

② 自动方式评估生成的规则和记录

上图右边是用②方法的Bootstrap

在什么样的情况下才能评估规则?

Q: 规则,记录

equation?tex=%5CRightarrow

向量

(规则,记录)

equation?tex=%5CRightarrow

相似度/匹配度

(规则,规则)

equation?tex=%5CRightarrow

相似度/匹配度

规则的表示(Patten Represtation)

equation?tex=R_1+%3D+%28L_1%2CT_1%2CM_1%2CT_2%2CR_1%29+

equation?tex=R_2%3D+%28L_2%2CT_1%2CM_2%2CT_2%2CR_2%29

equation?tex=%5Cbegin%7Bequation%7D+Sim%28R_1%2CR_2%29+%3D++%5Cleft+%5C%7B++++++++++++++++++%5Cbegin%7Baligned%7D++++++++++++++++%26++0++%26+if++%5C%3BT_1+%5Cne+T_1%27+%5C%3Bor%5C%3B++%5C%3BT_2+%5Cne+T_2%27+%26++%5C%5C++++++++++++++++++%26+%5Cmu_1+%5Ccdot++L_1+%5Ccdot+L_2+%2B%5Cmu_2+%5Ccdot+M_1+%5Ccdot+M_2+%2B+%5Cmu_3+%5Ccdot+R_1+%5Ccdot+R_2+++%26other%5Cquad%5Cquad+%5Cquad%26++++++++++++++++++++++%5Cend%7Baligned%7D+++%5Cright.+++++%5Cend%7Bequation%7D

equation?tex=%5Cmu_1%2C%5Cmu_2%3C+%5Cmu_3

equation?tex=%5Cmu_1%3D%5Cmu_2%3D0.2%3B+%5Cmu_3+%3D+0.6

① 生成规则

1.Computers (servers at) microsoft ('s headquater in) Redmond ()

2.(In mid-afternoon), Redmond-based Microsoft (feel )

3.(The) Armonk-based IBM (Introduces)

4.()Boeing's headquaters in seattle ()

3.

equation?tex=%5Cbegin%7Bpmatrix%7D+The%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-%5C%5Cbased%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+Introduces%5C%5C+%5Cend%7Bpmatrix%7D

4.

equation?tex=%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s%5C%5Cheadquaters%5C%5Cin++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C+%5Cend%7Bpmatrix%7D

抓换成unit-feature(长度归一化)

3.

equation?tex=%5Cbegin%7Bpmatrix%7D+The+%26+1%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-+%26+0.75%5C%5Cbased%26+0.75%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+Introduces+%26+1%5C%5C+%5Cend%7Bpmatrix%7D

4.

equation?tex=%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s+%26+0.57%5C%5Cheadquaters+%26+0.57%5C%5Cin+%26+0.57++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C+%5Cend%7Bpmatrix%7D

在上述1,2,3,4规则中，我们发现1和4,2和3比较相似

我们可以使用聚类的算法进行归类,将1和4merge成一条规则，2和3merge成一条规则:

--Kmeans

--Spetial Clusters

imcremential clustering

equation?tex=%5Cleft%5C%7B+r_1%2Cr_2%2Cr_3%2C...%2Cr_%7B10%7D+%5Cright%5C%7D

1.

equation?tex=%5Br_1%5D

2.

equation?tex=%5Br_1%2Cr_2%5D+%5Cquad+sim%28r_1%2Cr_2%29+%3E+0.7

3.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%5D+%5Cquad+sim%28r_1%2Cr_3%29+%3D+0.5+%3C+0.7+%5Cquad+sim%28r_2%2Cr_3%29+%3D+0.4%3C+0.7

4.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%5D%2C%5Br_4%5D

5.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%2Cr_5%5D%2C%5Br_4%5D

...

10.

equation?tex=%5Br_1%2Cr_2%2Cr_6%2Cr_8%5D%2C%5Br_3%2Cr_5%2Cr_7%5D%2C%5Br_4%2Cr_9%2Cr_%7B10%7D%5D

$equation?tex=%5Cfrac%7Br_1%2Br_2%2Br_6%2Br_8%7D%7B4%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99$

$equation?tex=%5Cfrac%7Br_3%2Br_5%2Br_%7B7%7D%7D%7B3%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99$

$equation?tex=%5Cfrac%7Br_4%2Br_9%2Br_%7B10%7D%7D%7B3%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99$

规则的聚类还能帮助我们减少噪声数据的影响

② 记录的生成

扫描预料库，标记出实体，把实体周围用五元组表示和规则库进行相似度的计算，把相似度最高的规则记录下来，如果相似度大于某个阈值将实体放入seed-record库并标记来自哪一条规则。

③ 评估规则 & 过滤规则

评估规则

过滤规则

④ 评估记录 & 过滤记录

评估记录

我们不看Paper的情况下，如何给下面的paper的可信度进行排序

首先2是由Hinton和Benjia一起发的，它的可信度最高，小华的知名度在ML界没有Hinton高,所以4<1,因此它们可信度的排名为 2 > 1 > 4

我们把这种方法应用到记录评估里面

A.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+Confi%28P_i%29

equation?tex=%28Microsoft%2C+Red+%29+%5CRightarrow+P_1

equation?tex=%28IBM%2CAlmonk+%29+%5CRightarrow+P_1+%5Ccdot+P_2

相乘会使值变小，这与我们的初衷不相符，这种方案不考虑

B.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+Confi%28P_i%29

这样做Confi的值会超过1,还存在

equation?tex=0.1+%2A+10+%3E+0.9+%2B+0.01

的情况

C.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+1+-+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%281-confi%28P_i%29%29+

equation?tex=%28Microsoft%2C+Red+%29++%3D+1+-+%281+-+0.85%29+%3D+0.85

equation?tex=%28IBM%2CAlmonk+%29++%3D+1+-+%281-0.85%29+%5Ccdot++%281-0.78%29+%3D+0.96+%3E0.85

过滤记录

得分小于阈值的过滤掉

江西老表你好

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。