- 博客(4)
- 收藏
- 关注
原创 Transformer-XL论文阅读笔记
论文链接:1901.02860.pdf (arxiv.org)打比赛的时候,本文长度超过512,可能会用到。主要是解决两个问题吧:其一就是如果强行把长文本分成不同的segment,那这些segment之间没有信息流动。其二就是如果按512的长度去做trunction,那么有可能某些词会被从中间截断。主要的思路就是:前面segment计算出的hidden state,将会当作memory,然后输入后面的segment进行计算,这样就可以让信息传得比较远,就可以处理长文本了。...
2022-01-16 11:10:32 2045
原创 pytorch_pretrained_bert源码阅读 model篇
1. tf model与pytorch model的转换由于暂时不会用到,因此没有去研究里面的细节,在这里mark一下代码。def load_tf_weights_in_bert(model, tf_checkpoint_path): """ Load tf checkpoints in a pytorch model """ try: import re import numpy as np import tensorf..
2022-01-15 22:39:26 500
原创 pytorch_pretrained_bert源码阅读
由于最近在看有关spanbert的repo(用于抽取式的QA),顺便阅读了一下pytorch_pretrained_bert的源码,在这里记录一下pytorch_pretrained_bert中有用的内容。1. 关于optimization.py所有的优化器都是基于Optimizer这个类写的,主要是得实现step函数。def __init__(self, params, lr=required, warmup=-1, t_total=-1, schedule='warmup_linear',
2022-01-11 22:50:12 859
原创 self-supervised evaluation
github链接:FAIR Self-Supervision Benchmark论文链接:https://arxiv.org/abs/1905.01235提供了评价一个自监督模型学习到的representation的方法。
2021-08-10 14:20:11 138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人