【小白做科研( 九 )】炼丹小记

本文链接：https://blog.csdn.net/namespace_Pt/article/details/115257056

文章目录

前言

最近一直在调模型, 这篇主要想说说相关的内容以及一些坑。

关于logging

我认为, 要好好地调模型参数, 最重要的一点是代码里一定要把各种logging都写好, 尤其是超参数的设定。因为用的是ubuntu的screen命令在后台跑, 而screen自带的logging是会把tqdm的每一次变动都新写一行的, 严重阻碍了我们的阅读, 而且经常是重连服务器后看不到之前的终端输出, 这更加强调了将模型的参数设定和测试结果写入到文件里的重要性。

logging performance

我自己的workflow如下

因此我会在每次evaluate()结束后将Hyper Parameters和训练步数以及一些重要的模型参数(的shape) 写入到performance.log里, 这样对比起来就方便多了。

logging information

python自带的模块logging真的很方便, 可以简单地配置一下格式

logging.basicConfig(level=logging.INFO, format="[%(asctime)s] %(levelname)s (%(name)s) %(message)s")

在任何自定义的module中, 只需要下面两句就可以输出信息 (到终端)了。

logger = logging.getLogger(__name__)
logger.info('xxx')

更详细的logging配置直接看python文档就好。

关于embedding

一般来说我们fine-tune的都是预训练的embedding之类的东西, 比如用Glove做word embedding, PyTorch的nn.embedding可以很方便地加载这样的向量, 用的时候只需要根据index查表就可以。

我发现有趣的点是nn.embedding查表速度要显著快于把预训练向量用nn.Parameter包装起来查表, 估计做了优化, 但我也没有仔细研究；
另外, nn.Embedding有一个参数叫做sparse, 如果为True的话会将梯度转化为sparse gradient, 我上网搜了一下dense和sparse的不同, 开发人员给出的答案是当单词表很大时, sparse会快并且占用更少的内存；但我自己使用的时候对比两者没发现显著区别。 还需要注意的是, 如果sparse-True, 需要给embedding设置单独的sparse optimizer, 比如SparseAdam；

关于one_hot

PyTorch中自带了将index转化为one-hot编码的方法torch.nn.functional.one_hot, 但是! 这个方法的速度很慢, 我使用scatter方法能够获得更快的速度, 原码如下

index = torch.empty(5, 5, 1, dtype=torch.int64).random_(0,10)
def one_hot(index):
	dest = torch.zeros(5, 5, 10)
	src = torch.ones(5, 5, 10)
	dest.scatter_(-1, index, src)
	return dest

关于加载模型

torch.load()有一个至关重要的参数map_location, 如果不给其传递值, 那么会自动将模型加载到之前保存它的device上, 之前一直搞不懂为什么指明了cuda:1却还是会占用cuda:0的显存, 后来发现原来需要torch.load(xxx, map_location='cuda:1')