- 博客(3)
- 收藏
- 关注
原创 【Task 4 多层感知机】
此外,当反向传播通过许多层时,除非我们在刚刚好的地方, 这些地方sigmoid函数的输入接近于零,否则整个乘积的梯度可能会消失。此外,由于我们的训练和验证误差之间的泛化误差很小, 我们有理由相信可以用一个更复杂的模型降低训练误差。当输入为负时,ReLU函数的导数为0,而当输入为正时,ReLU函数的导数为1。每个输入都会影响隐藏层中的每个神经元, 而隐藏层中的每个神经元又会影响输出层中的每个神经元。为了使过拟合的效果更加明显,我们可以将问题的维数增加到d=200, 并使用一个只包含20个样本的小训练集。
2023-03-28 17:26:43 276
原创 Task3线性神经网络
Fashion-MNIST中包含的10个类别,分别为t-shirt(T恤)、trouser(裤子)、pullover(套衫)、dress(连衣裙)、coat(外套)、sandal(凉鞋)、shirt(衬衫)、sneaker(运动鞋)、bag(包)和ankle boot(短靴)。给定一个数据集,我们的目标是寻找模型的权重和偏置, 使得根据模型做出的预测大体符合数据里的真实价格。在另一种方法中,我们将依赖对+的调用。给定一系列图像,我们将比较它们的实际标签(文本输出的第一行)和模型预测(文本输出的第二行)。
2023-03-23 21:13:53 150
原创 Task 2
为此,我们需要使用概率学。***深拷贝会另外创造一个一模一样的对象,新对象跟原对象不共享内存,修改新对象不会改到原对象,是“值”而不是“引用”(不是分支)拷贝第一层级的对象属性或数组元素递归拷贝所有层级的对象属性和数组元素深拷贝会拷贝所有的属性,并拷贝属性指向的动态分配的内存。因此,概率是一种灵活的语言,用于说明我们的确定程度,并且它可以有效地应用于广泛的领域中。使用自动微分的一个好处是: 即使构建函数的计算图需要通过Python控制流(例如,条件、循环或任意函数调用),我们仍然可以计算得到的变量的梯度。
2023-03-21 22:19:14 235 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人