er两个实体之间一定要有关系吗_Infomation Extraction(关系抽取)

8a7ca6fd3a3389b44bf8736257a380af.png

大纲

  • 介绍
  • 基于规则的方法
  • 基于监督学习的方法
  • 半监督 (Bootstrap)

介绍

文本:张三毕业于北京大学,目前在北京工作。

1dde2ebcd9669119466a78a42ad63e70.png

通过命名识别我们获取了实体张三,北京,北京大学

接下来我们要识别的是两两之间的关系

一般在工业界项目里面,我们提前定义好关系 A,B,C,NA

然后用分类算法获得关系

Relation Extraction

1.基于规则

2.监督学习

3.半监督 & 无监督学习

  • Bootstrap
  • Distant Supervision
  • 无监督学习

基于规则的方法

首先我们要建立Templetes

X is a Y

Y such as X

Y including X

Y especially X

我们可以在X和Y上面做一些条件,比如限制它们为Entity

首先我们找到实体

93be31bad8ae4f9538505206ed8583b8.png

然后可以按照一定的规则或相似度匹配获得它们的关系

① (字符串刚好匹配) Exact Matching

② if |fruit - apple| < 10(relative distance) and contains("is a")

③ 计算(is a) 和 (is a .....)的相似度

基于规则的方法优点:

① 准确率高

②不需要样本

基于规则的方法缺点:

① low recall rate

由于规则的严格性和局限性我们会漏掉一些符合条件的关系,导致recall值太低,但是我们又不能把规则设计的太松,这样会导致准确率大大降低。

②成本(不是特别严重)

③规则库中会出现规则重叠

④规则冲突

规则之间有可以有一些设计

① 权重 & Priority

② 规则之间的层次关系

基于监督学习的方法

① 定义实体类型

② 训练数据

---实体标注好

---实体之间的关系标注好

NLP存在数据量少的情况,这种情况可以使用 Low-resource learning。

监督学习分成两部分,首先标记实体

American Airline, (a unit of AMR,immedicately match the movie,spokesman) Time Wanger said

American Airline

equation?tex=%5Crightarrow ORG

Time Wanger

equation?tex=%5CrightarrowPER

f0427fd38215cafc0a95eea1c5a505f0.png

位置(两个实体间包含了多少个单词)

Classification Model

1e0087fefebef14d86af2d4cec47e3d0.png

左边表示将没有关系表示成NA,进行一层建模分类

右边先用一个二分类将有关系和没关系的区分开来,在将有关系的进行分类, 这种叫做层次结构建模

具有层次结构的算法准确率比较高

半监督 (Bootstrap)

7cbf3487af50e898cb6208a19dc1eecf.png

生成规则的前先把所有的实体标记出来,然后进行扫描,提取出规则。

Bootstrap 过程

cd64848f1307148acb46dc43c117ec50.png

这种方法有个问题是错误会叠加,最后导致准确率很低

Solutions:

① 人工参与

② 自动方式评估生成的规则和记录

29ea18a3afaa066147fadd40373b0b97.png

上图右边是用②方法的Bootstrap

在什么样的情况下才能评估规则?

Q: 规则,记录

equation?tex=%5CRightarrow 向量

(规则,记录)

equation?tex=%5CRightarrow 相似度/匹配度

(规则,规则)

equation?tex=%5CRightarrow 相似度/匹配度

规则的表示(Patten Represtation)

2dfd985d96a9467f34c8c9c3dc7968e6.png

equation?tex=R_1+%3D+%28L_1%2CT_1%2CM_1%2CT_2%2CR_1%29+

equation?tex=R_2%3D+%28L_2%2CT_1%2CM_2%2CT_2%2CR_2%29
equation?tex=%5Cbegin%7Bequation%7D+Sim%28R_1%2CR_2%29+%3D++%5Cleft+%5C%7B++++++++++++++++++%5Cbegin%7Baligned%7D++++++++++++++++%26++0++%26+if++%5C%3BT_1+%5Cne+T_1%27+%5C%3Bor%5C%3B++%5C%3BT_2+%5Cne+T_2%27+%26++%5C%5C++++++++++++++++++%26+%5Cmu_1+%5Ccdot++L_1+%5Ccdot+L_2+%2B%5Cmu_2+%5Ccdot+M_1+%5Ccdot+M_2+%2B+%5Cmu_3+%5Ccdot+R_1+%5Ccdot+R_2+++%26other%5Cquad%5Cquad+%5Cquad%26++++++++++++++++++++++%5Cend%7Baligned%7D+++%5Cright.+++++%5Cend%7Bequation%7D

equation?tex=%5Cmu_1%2C%5Cmu_2%3C+%5Cmu_3

equation?tex=%5Cmu_1%3D%5Cmu_2%3D0.2%3B+%5Cmu_3+%3D+0.6

a896b3c44734fd6d291dba6757b0ab50.png

① 生成规则

1.Computers (servers at) microsoft ('s headquater in) Redmond ()

2.(In mid-afternoon), Redmond-based Microsoft (feel )

3.(The) Armonk-based IBM (Introduces)

4.()Boeing's headquaters in seattle ()

  1. equation?tex=%5Cbegin%7Bpmatrix%7D+servers%5C%5Cat+++%5Cend%7Bpmatrix%7D+%5C%3B+org+%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s+%5C%5Cheadquaters++%5C%5Cin+++%5Cend%7Bpmatrix%7D+%5C%3B+loc+%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D
  2. equation?tex=%5Cbegin%7Bpmatrix%7D+In%5C%5Cmid-afternoon++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-%5C%5Cbased%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+feel%5C%5C+%5Cend%7Bpmatrix%7D

3.

equation?tex=%5Cbegin%7Bpmatrix%7D+The%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-%5C%5Cbased%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+Introduces%5C%5C+%5Cend%7Bpmatrix%7D

4.

equation?tex=%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s%5C%5Cheadquaters%5C%5Cin++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C+%5Cend%7Bpmatrix%7D

抓换成unit-feature(长度归一化)

  1. equation?tex=%5Cbegin%7Bpmatrix%7D+servers+%26+0.75%5C%5Cat%26+0.75+++%5Cend%7Bpmatrix%7D+%5C%3B+org+%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s+%26+0.57%5C%5Cheadquaters+%26+0.57+%5C%5Cin+%26+0.57++%5Cend%7Bpmatrix%7D+%5C%3B+loc+%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D
  2. equation?tex=%5Cbegin%7Bpmatrix%7D+In+%26+0.75%5C%5Cmid-afternoon+%26+0.75++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-+%26+0.75%5C%5Cbased+%26+0.75%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+feel+%26+1%5C%5C+%5Cend%7Bpmatrix%7D

3.

equation?tex=%5Cbegin%7Bpmatrix%7D+The+%26+1%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B+%5Cbegin%7Bpmatrix%7D+-+%26+0.75%5C%5Cbased%26+0.75%5C%5C++%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B%5Cbegin%7Bpmatrix%7D+Introduces+%26+1%5C%5C+%5Cend%7Bpmatrix%7D

4.

equation?tex=%5Cbegin%7Bpmatrix%7D+%5C%5C%5Cend%7Bpmatrix%7D+%5C%3B+org%5C%3B+%5Cbegin%7Bpmatrix%7D+%27s+%26+0.57%5C%5Cheadquaters+%26+0.57%5C%5Cin+%26+0.57++%5Cend%7Bpmatrix%7D+%5C%3B+loc%5C%3B%5Cbegin%7Bpmatrix%7D+%5C%5C+%5Cend%7Bpmatrix%7D

在上述1,2,3,4规则中,我们发现1和4,2和3比较相似

我们可以使用聚类的算法进行归类,将1和4merge成一条规则,2和3merge成一条规则:

--Kmeans

--Spetial Clusters

imcremential clustering

equation?tex=%5Cleft%5C%7B+r_1%2Cr_2%2Cr_3%2C...%2Cr_%7B10%7D+%5Cright%5C%7D

1.

equation?tex=%5Br_1%5D

2.

equation?tex=%5Br_1%2Cr_2%5D+%5Cquad+sim%28r_1%2Cr_2%29+%3E+0.7

3.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%5D+%5Cquad+sim%28r_1%2Cr_3%29+%3D+0.5+%3C+0.7+%5Cquad+sim%28r_2%2Cr_3%29+%3D+0.4%3C+0.7

4.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%5D%2C%5Br_4%5D

5.

equation?tex=%5Br_1%2Cr_2%5D%2C%5Br_3%2Cr_5%5D%2C%5Br_4%5D

...

10.

equation?tex=%5Br_1%2Cr_2%2Cr_6%2Cr_8%5D%2C%5Br_3%2Cr_5%2Cr_7%5D%2C%5Br_4%2Cr_9%2Cr_%7B10%7D%5D

equation?tex=%5Cfrac%7Br_1%2Br_2%2Br_6%2Br_8%7D%7B4%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99

equation?tex=%5Cfrac%7Br_3%2Br_5%2Br_%7B7%7D%7D%7B3%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99

equation?tex=%5Cfrac%7Br_4%2Br_9%2Br_%7B10%7D%7D%7B3%7D+%5CRightarrow+%E6%96%B0%E7%9A%84%E8%A7%84%E5%88%99

规则的聚类还能帮助我们减少噪声数据的影响

② 记录的生成

3f8bfec8fa902baf1b8af262def296cb.png

扫描预料库,标记出实体,把实体周围用五元组表示和规则库进行相似度的计算,把相似度最高的规则记录下来,如果相似度大于某个阈值将实体放入seed-record库并标记来自哪一条规则。

③ 评估规则 & 过滤规则

评估规则

130965d2cdc29a38eece3f62334e26bb.png

过滤规则

1ba7b1c7da8508f1797272a41771642f.png

④ 评估记录 & 过滤记录

评估记录

我们不看Paper的情况下,如何给下面的paper的可信度进行排序

be129d719f609cfcc5a31e87f921468a.png

首先2是由Hinton和Benjia一起发的,它的可信度最高,小华的知名度在ML界没有Hinton高,所以4<1,因此它们可信度的排名为 2 > 1 > 4

我们把这种方法应用到记录评估里面

53fdb2e7243e253e1cb39c4e8ff09a22.png

A.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+Confi%28P_i%29

equation?tex=%28Microsoft%2C+Red+%29+%5CRightarrow+P_1

equation?tex=%28IBM%2CAlmonk+%29+%5CRightarrow+P_1+%5Ccdot+P_2

相乘会使值变小,这与我们的初衷不相符,这种方案不考虑

B.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D+Confi%28P_i%29

这样做Confi的值会超过1,还存在

equation?tex=0.1+%2A+10+%3E+0.9+%2B+0.01 的情况

C.方案

equation?tex=Confi%28%E6%96%B9%E6%A1%88%29+%3D+1+-+%5Cprod_%7Bi%3D1%7D%5E%7Bn%7D+%281-confi%28P_i%29%29+

equation?tex=%28Microsoft%2C+Red+%29++%3D+1+-+%281+-+0.85%29+%3D+0.85

equation?tex=%28IBM%2CAlmonk+%29++%3D+1+-+%281-0.85%29+%5Ccdot++%281-0.78%29+%3D+0.96+%3E0.85

过滤记录

得分小于阈值的过滤掉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值