李沐-多层感知机,优化方案

最新推荐文章于 2024-06-21 18:22:17 发布

hlhwna

最新推荐文章于 2024-06-21 18:22:17 发布

阅读量295

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/hlhwna/article/details/129916940

版权

1.mlp-全连接层-每个输入均影响输出

2.初始化权重函数需要对层是否有权重判断（只有线性层有）所以：

def init_weights(m):
    if type(m) == nn.Linear:##进行种类判断
        nn.init.normal_(m.weight, std=0.01)

3.防止线性函数过于简单可以进行高次幂定义，类似于泰勒的形式

4.l2正则化本质就是加了一个平方惩罚项，其他类似，唯独在给优化算法输入参数时加入调用正则化系数：trainer = torch.optim.SGD([{"params":net[0].weight,##"weight_decay":wd##这里对weight使用正则化##}，{"params":net[0].bias}],lr)对比：trainer = torch.optim.SGD(net.parameters(), lr=lr)这里就没有包含正则化项。

5.dropout是在每一次迭代随机丢弃节点，也就是每次迭代训练的都是不同的一部分子网络。操作是在每一大层结束后使用Dropout层，可以指定暂退比例。小贴士：多输出分类模型最后一层节点不是1，而Meloss只能争对一个节点的线性层，一定要用交叉熵损失

6.各类偏移具有很多类似，其中协变量偏移可以引入损失权重来提高适应。

7.比较好的权重初始化：xavier:使用根据输入特征以及本层节点数目考虑的权重初始化系数，可以打破对称性质，也会因为节点占有多适当降低权重，增加网络协同性，减少过拟合

hlhwna

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李沐-多层感知机,优化方案

4.l2正则化本质就是加了一个平方惩罚项，其他类似，唯独在给优化算法输入参数时加入调用正则化系数：trainer = torch.optim.SGD([{"params":net[0].weight,##"weight_decay":wd##这里对weight使用正则化##}，{"params":net[0].bias}],lr)对比：trainer = torch.optim.SGD(net.parameters(), lr=lr)这里就没有包含正则化项。1.mlp-全连接层-每个输入均影响输出。
复制链接

扫一扫