GlobalPointer笔记

做实体提取任务,结合例子记录globalpointer的带旋转位置编码的过程。

例子:所以大多数人都是从巴厘岛南部开始环岛之旅。

共有21个汉字

标签:"scene": 9,

共有10个标签

目标{“scene”:” 巴厘岛”}

经过bert-base-chinese编码,再经过全连加权得到q[1][21][10][64],和k[1][21][10][64],

其中第一维度是batch_size,本样例只有一个句子,所以为1

第二维度是对应每个位置,本句共有21个句子

第三维度是对应每个标签,共有10个标签

第四维度是d,在测评程序里取64,即旋转位置矩阵的大小

model = GlobalPointer(encoder,ent_type_size, 64),最后的参数是d

然后对于每个位置计算旋转位置矩阵,利用公式θi=10000^(−2i/d) ,i取0到d/2-1计算矩阵,然后对于取值在1到21的位置m,计算下面的矩阵

然后取q的第四个维度,进行如下运算:

其中⊗是逐位对应相乘,得到矩阵qw,对于k也进行同样操作,得到kw

此时qw和kw都是[1][21][10][64]维度的,定义为[b][m][h][d]和[b][n][h][d]

然后把b和h维度提前,把md和nd维度进行矩阵相乘,得到新的矩阵logit[b][h][m][n]

即logit[1][10][21][21]

Logit即要求的打分函数s_a(i,j),即logit[1][a][i][j]可理解为i位置到j位置的字段是实体a的打分

然后把主对角线的下三角部分全部取负数,即使得当i>j的时候,logit[1][a][i][j]一定为负,从而使得实体结果i>=j,即实体字段至少包含一个汉字,然后每一位除以d/2确保数字不会太大。

最后对于每个句子,找到logit矩阵中大于0的位置,在本样例中,logit[1][9][10][12]>0,然后由于句子数组是从0开始的,而m是从1开始的,所以我们取[9,11]字段作为实体,即“巴厘岛”,而实体标签类型是9号标签,即scene,所以组合在一起就有:{“scene”:” 巴厘岛”}

关于损失函数

使得当给出的训练集中i,j字段是实体的时候,后半部,即Q的部分无限接近0,不是实体的时候,前半部,即p的部分无限接近0

从而是实体时,只要使得前半部损失函数最小,即最大化sa,即打分函数

而不是实体时相反,使得打分函数尽量小,从而使得损失函数最小

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值