解决GPU模型训练的随机性

最新推荐文章于 2024-07-14 15:45:14 发布

Takoony

最新推荐文章于 2024-07-14 15:45:14 发布

阅读量1k

点赞数

分类专栏： deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ningyanggege/article/details/91388624

版权

deep learning 专栏收录该内容

166 篇文章 17 订阅

订阅专栏

问题：重复使用GPU训练模型（所有条件完全一致），模型结果不一致？

原则：1、训练数据与测试数据切割是一致的；2、保证加载的训练数据是确定的；3、确定random seed ，np.random.seed，graph-level seed ，operation-level seed
方案一：

np.random.seed(1)
from tensorflow import set_random_seed
set_random_seed(2)

实验表明：该方法无法做到模型效果复现

方案二：

SEED = 1234

random.seed(SEED)

np.random.seed(SEED)

tf.set_random_seed(SEED)

operation-level设置：
所有的tf.get_variable中的初始化加入tf.random_normal_initializer(seed=SEED)

其他的初始化方法有：

tf.constant_initializer：常量初始化函数

tf.random_normal_initializer：正态分布

tf.truncated_normal_initializer：截取的正态分布

tf.random_uniform_initializer：均匀分布

tf.zeros_initializer：全部是0

tf.ones_initializer：全是1

tf.uniform_unit_scaling_initializer：满足均匀分布，但不影响输出数量级的随机值

dropout函数中加入参数seed=SEED

GRUCELL中加入核权重kernel_initializer=tf.orthogonal_initializer

其实验数据表明无法消除随机性，但结果差异变小；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解决GPU模型训练的随机性

问题：重复使用GPU训练模型（所有条件完全一致），模型结果不一致？原则：1、训练数据与测试数据切割是一致的；2、保证加载的训练数据是确定的；3、确定random seed ，np.random.seed，graph-level seed ，operation-level seed方案一：np.random.seed(1)from tensorflow import set_ra...
复制链接

扫一扫

专栏目录

Takoony CSDN认证博客专家 CSDN认证企业博客

码龄16年

778: 原创

1万+: 周排名

644: 总排名

275万+: 访问

: 等级

2万+: 积分

910: 粉丝

1664: 获赞

326: 评论

4498: 收藏

私信

关注

热门文章

分类专栏

nlp 6篇
图计算 8篇
安全 16篇
其他 8篇
KG 39篇
大数据
acm算法 3篇
paper
meta_learning
deep learning 166篇
python 299篇
ml 188篇
linux 99篇
financial_ 4篇
kaggle 4篇
git 18篇
bigdata 34篇
vim 53篇
computer_tools 4篇
tensorflow 10篇

最新评论

svm硬间隔与软间隔
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
箱线图的理解
sdsswydyj: 离得那个越近，那个就占比越高，就要乘更大的数
凸凹函数看二阶导数
woai809wansui: 国内外关于凹凸性定义不一样的
python 多进程中锁的使用方法
ImAlwen: 仔细看看，有注释#
transformer之KV Cache
weixin_47156194: 可以看下最新的有关KVcache的文章，KVcache可以将Attention的FLOPs从序列二次方，降到跟序列成正比，也就是说,求得序列越长收益越大，但随之带来的问题就是KVcache也会越来越大。这就需要取舍了。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。