tensorflow总结

最近的工作主要围绕tensorflow分布式(ps-worker,horovod)的改造,连最基本的模型搭建以及损失函数等都忘记了。出了问题都不知道该从何查起,做如下总结。

一、目前遇到的问题:

          imagenet 数据集训练alexnet模型,模型loss输出一直固定在6.9左右。已经查过以下问题。

  1. 模型的参数随着训练过程在变化
    1. 将模型输入设置为全白图片,检查模型输出logits,logits是在变化
    2. 这里面发现自己的问题:对于损失函数,以及top函数的输入logits的定义理解不强。对于是否经过softmax处理不明确。
  2. 模型的输入数据是否正确
    1. 将模型输入的图片写入txt文件,用plt画出来,发现图片是对的。
    2. 这里面发现自己的问题:对于图片预处理的把握不强,只是人云亦云的拿了别人的预处理函数,出现问题发现还是要按照自己的理解写程序。

二、问题疑似解决:

组内博士大神指点迷津,说降低学习率。

之前的学习率是0.1和0.01,目前改到0.0001,loss开始下降,模型开始训练。等模型跑的论述多一点,看情况是否持续。

三、总结

1.当模型训练loss不变时,第一步还是要改变LR或是OPT,当LR调小到一定程度后,确定不是LR过大后,在开始检查模型参数是否变化以及输入数据是否正确。

2.要对深度学习基本概念以及原理有一定总结,对于分类问题的loss,top1,top5等需要明确。要多读tensorflow源码,确定哈数对于各个input的要求(数据格式,数据类型)以及各个参数的含义。尤其是源码中对于各个函数的注释,里面大多列举了对于input的要求。

3.遇到问题多和别人交流,一个人看问题,容易陷入局部最优。这几天在解决问题的过程中,总是跳过最基本的检查点,这是不对的,也在无形之间走了很多弯路,并且要尽量心平气和的和别人交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值