- 博客(4)
- 收藏
- 关注
原创 优化算法进阶——学习打卡
为最小化损失函数进行参数更新时,对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。损失函数中的参数,单独进行更新时参数们的收敛速度一般是不同的,这种不同造成了更新过程中损失值的震荡,或者难以收敛。如:f(x)=0.1 * x1^2 + 2 * x2^2中,x2与x1的梯度更新速度相差20倍。给定学习率,梯度下降迭代自变量时会使自...
2020-02-25 18:31:08 199
原创 TASK4,5听课笔记
以下内容摘自此链接AlexNet特征:8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。将sigmoid激活函数改成了更加简单的ReLU激活函数。用dropout来控制全连接层的模型复杂度。引入数据增强,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合。使用重复元素的网络(VGG)VGG:通过重复使用简单的基础块来构建深度模型。Block:数个相同...
2020-02-19 20:52:46 130
原创 Task03-05
文本预处理1.strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。str.strip([chars]); chars -- 移除字符串头尾指定的字符序列。2.Python 的re模块提供了re.sub用于替换字符串中的匹配项re.sub(pattern, repl, string, count=0, flags=0)3.Python 字...
2020-02-16 17:50:30 438
原创 Task01,02 课后习题分析+部分笔记
线性回归2.#测试 输出: y_hat = net(X,w,b) print(y_hat.shape,y.view(-1).shape, y.view(y_hat.shape).shape, y.view(-1, 1).shape, y_hat.view(-1).shape,y.shape,)#结束torch.Size([10, 1]) ...
2020-02-14 11:57:33 493
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人