关于transformer-xl和xlnet以及tensorflow的知识简要小结

01 transformer-xl

由于transformer只能限制到固定长度内容的文本之间的关系,如果文本长度不固定,不能很好的表示之间的联系。而transformer-xl引入了相对位置之间的表示方法,以及以循环神经网络的方式,记录信息之间的联系,可以更好的解决不同时刻词语之间的关系信息。

参考文章:

A Light Introduction to Transformer-XL  https://medium.com/dair-ai/a-light-introduction-to-transformer-xl-be5737feb13

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf

02 XLnet

由于bert在pretrain和finetune之间会形成脱节(信息损失),而引入了XLnet模型,这个模型可以克服掉pretrain和finetune之间的不能有效搭配的问题,xlnet采用自回归模型(AR)和自编码模型(AE),其中自编码模型是采用tranformer-xl编码层的方法,通过对应embeding之间的id采用全排列的方式,把输入的所有之间的信息联系起来,通过双流注意力的方式,基于content的注意力(self-attention)和基于query的注意力(遮挡住当前预测位置的词),来进行预测。这种方法更加预测准确。

参考文章:

Understanding Language using XLNet with autoregressive pre-training https://medium.com/@zxiao2015/understanding-language-using-xlnet-with-autoregressive-pre-training-9c86e5bea443

XLNet: Generalized Autoregressive Pretraining for Language Understanding  https://arxiv.org/pdf/1906.08237.pdf

03 tensorflow知识的小结:

tf.slice()的用法,这个方法其实是取对应输入向量的部分切片维度,参考链接:https://www.jianshu.com/p/71e6ef6c121b

tf.cast(freq_seq, dtype=dtype)  这个用法相当于将张量矩阵freq_seq,显示为对应type类型。

tf.range(0, d_model, 2.0)  这个用法指的是在[0,d_model]之间,输出开始位置为0,每个元素之间间隔2.

tf.concat([mems, h], 0) 相当于把mems和h按照第一维度,合并。

tf.get_variable('r_w_bias', [n_layer, n_head, d_head],
                           dtype=tf_float, initializer=initializer) 相当于创建一个变量名为‘r_w_bias’的[n_layer, n_head, d_head]维度,类型为tf_float的张量。

 tf.ones([qlen, qlen], dtype=dtype) 相当于创建了[qlen, qlen]维度都为1类型为dtype的张量矩阵。

tf.matrix_band_part(attn_mask, 0, 0) 相当于attn_mask 下三角部分除主对角位置其余位置都为0,上三角部分除主对角位置其余位置都为0。

tf.stop_gradient(new_mem)  不计算new_mem的梯度,将new_mem当为固定值使用。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值