一、上周工作
二、本周计划
实验、论文学习、写论文摘要和网络架构
三、完成情况
3.1 实验——5000
3.1.1 学习率——0.001和0.0001
学习率变大后,收敛会更快,loss下降的更快。
实验中,在CurveVelA和CurveFaultA数据集上,学习率为0.0001时整体指标和效果更好,但mae和lpips差一点点。
3.1.2 跑CurveVelA数据集
——对比了Dense+一层CBAM 和 只加Dense的指标和效果。
Dense+一层CBAM:整体指标更好,其中mae和uqi低一点。
3.2 学习率和batchsize
从随机梯度下降算法的原理可以看出batchsize和学习率直接决定了模型的权重更新,影响模型性能收敛。学习率影响了模型的收敛状态,例如上面实验中的效果;batchsize则影响模型的泛化性能。
3.2.1 学习率
学习率用于控制优化算法在更新模型参数时的步长,他对模型性能的影响体现在两个方面:
- 第一个是学习率的大小,过大则导致模型不收敛, 过小虽然能保证模型最终收敛,但是会大大降低模型训练的速度(收敛较慢),甚至可能导致模型陷入局部最优解。
- 第二个是学习率的变化方案,合适的调整策略不仅能够加速模型的收敛速度,还能提高模型的泛化性能。如:
- 预设规则学习率变化法: fixed, setp, exp, inv, multistep, poly, sigmoid等。
- 自适应学习率变换方法:Adam、Adagrad等,Adam优化器会自动调整学习率,因此我们不需要手动进行调整。
3.2.2 batchsize
batchsize对训练速度、模型性能都有影响:
- 训练速度:较大的batch size可以更充分地利用硬件并行性,从而加快单个epoch的训练速度。同时提高稳定性,大的batchsize梯度计算更加稳定, 因为可以提供更稳定的梯度估计,模型训练曲线会更加平滑。然而,较大的batchsize也意味着需要更多的内存,且泛化能力下降(不是绝对的,可能是因为较小的batchsize提供了一种隐式的正则化效果)。
- 模型性能:较小的batchsize可以提供更频繁的权重更新,使模型更快地收敛。然而,较小的batch size也可能导致训练过程不稳定,因为每个batch的梯度估计可能有很大的方差。
如果增加了学习率, 那么batchsize最好也跟着增加, 这样收敛更稳定。通常当我们增加batchsize/学习率为原来的N倍时,,要保证经过同样的样本后更新的权重相等,按照线性随访规则,学习率/batchsize应该增加为原来的N倍。
尽量使用大的学习率,因为很多研究都表明更大的学习率有利于提高泛化能力。
3.3 论文总结:
主要用一般现在时写
摘要abstract:已有工作及其局限性——本文工作:first:how+what,second,third——哪个数据集上进行实验、结果、源代码
引言introduction:扩充摘要,按照摘要的节奏去写。大量去读别人的引言部分。例如第一段扩写摘要的第一句······In this paper,we propose xxx to handle these issues mentioned above······Experiments are undertaken on xxx datasets······The rest of this paper is organized as follows······
相关工作related work:有几个技术就写成几段。先说what/how,再说why
方法methodology:网络架构、损失函数
注:
1)缩写的如果在摘要后半部分没出现,可不用缩写
2)除了摘要、引言和结论之外,不要写in this paper
3)角标问题:后面如果还引言,仍需要写角标
共性问题:
一句话中不要写太多介词
引用的时候不是鼻祖不要用first try to这个意思去表述
论文是树形的,而不是线性的。学会分门别类的写。
避免用recently,因为计算机发展很快
把最重要的东西放在最前面显眼的位置
In this paper、Experiments were undertaken都是标准的分割线
3.4 完成论文摘要和网络架构
四、存在的主要问题
论文看太少了,引言和相关工作部分对于论文的引用是较大问题。
写论文一句话容易写的很长
五、下一步计划
修改已写的部分,并完成论文初稿(除实验部分,还未在大数据集上验证)