上帝是个小女孩-CSDN博客

原创 Transformer-XL论文阅读笔记

论文链接：1901.02860.pdf (arxiv.org)打比赛的时候，本文长度超过512，可能会用到。主要是解决两个问题吧：其一就是如果强行把长文本分成不同的segment，那这些segment之间没有信息流动。其二就是如果按512的长度去做trunction，那么有可能某些词会被从中间截断。主要的思路就是：前面segment计算出的hidden state，将会当作memory，然后输入后面的segment进行计算，这样就可以让信息传得比较远，就可以处理长文本了。...

2022-01-16 11:10:32 2045

原创 pytorch_pretrained_bert源码阅读 model篇

1. tf model与pytorch model的转换由于暂时不会用到，因此没有去研究里面的细节，在这里mark一下代码。def load_tf_weights_in_bert(model, tf_checkpoint_path): """ Load tf checkpoints in a pytorch model """ try: import re import numpy as np import tensorf..

2022-01-15 22:39:26 500

原创 pytorch_pretrained_bert源码阅读

由于最近在看有关spanbert的repo（用于抽取式的QA），顺便阅读了一下pytorch_pretrained_bert的源码，在这里记录一下pytorch_pretrained_bert中有用的内容。1. 关于optimization.py所有的优化器都是基于Optimizer这个类写的，主要是得实现step函数。def __init__(self, params, lr=required, warmup=-1, t_total=-1, schedule='warmup_linear',

2022-01-11 22:50:12 859

原创 self-supervised evaluation

github链接：FAIR Self-Supervision Benchmark论文链接：https://arxiv.org/abs/1905.01235提供了评价一个自监督模型学习到的representation的方法。

2021-08-10 14:20:11 138

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人