learnin_hard-CSDN博客

原创优化算法进阶——学习打卡

为最小化损失函数进行参数更新时，对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。损失函数中的参数，单独进行更新时参数们的收敛速度一般是不同的，这种不同造成了更新过程中损失值的震荡，或者难以收敛。如：f(x)=0.1 * x1^2 + 2 * x2^2中，x2与x1的梯度更新速度相差20倍。给定学习率，梯度下降迭代自变量时会使自...

2020-02-25 18:31:08 199

原创 TASK4，5听课笔记

以下内容摘自此链接AlexNet特征：8层变换，其中有5层卷积和2层全连接隐藏层，以及1个全连接输出层。将sigmoid激活函数改成了更加简单的ReLU激活函数。用dropout来控制全连接层的模型复杂度。引入数据增强，如翻转、裁剪和颜色变化，从而进一步扩大数据集来缓解过拟合。使用重复元素的网络（VGG）VGG：通过重复使用简单的基础块来构建深度模型。Block:数个相同...

2020-02-19 20:52:46 130

原创 Task03-05

文本预处理1.strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。str.strip([chars]); chars -- 移除字符串头尾指定的字符序列。2.Python 的re模块提供了re.sub用于替换字符串中的匹配项re.sub(pattern, repl, string, count=0, flags=0)3.Python 字...

2020-02-16 17:50:30 438

原创 Task01,02 课后习题分析+部分笔记

线性回归2.#测试输出： y_hat = net(X,w,b) print(y_hat.shape,y.view(-1).shape, y.view(y_hat.shape).shape, y.view(-1, 1).shape, y_hat.view(-1).shape,y.shape,)#结束torch.Size([10, 1]) ...

2020-02-14 11:57:33 493

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 优化算法进阶——学习打卡

原创 TASK4，5听课笔记

原创 Task03-05

原创 Task01,02 课后习题分析+部分笔记

空空如也

空空如也

原创优化算法进阶——学习打卡