qq_42310607-CSDN博客

原创李沐笔记（残差网络ResNet）

import torchfrom torch import nnfrom torch.nn import functional as Ffrom d2l import torch as d2l# 残差块class Residual(nn.Module): def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1): ...

2021-12-06 16:48:28 601

原创李沐笔记（批量归一化）

import torchfrom torch import nnfrom d2l import torch as d2l# 从零开始# 拉伸参数gamma、偏移参数beta# moving_mean,moving_var：全局均值和方差 eps：避免除零 momentum：用来更新全局均值和方差（0.9or0.1def batch_norm(X,gamma,beta,moving_mean,moving_var,eps,momentum): # 通过`is_g...

2021-12-06 15:52:40 2995

原创李沐笔记（GoogleNet）

4个路径从不同层面抽取信息，然后在输出通道维合并import torchfrom torch import nnfrom torch.nn import functional as Ffrom d2l import torch as d2lclass Inception(nn.Module): def __init__(self,in_channels,c1,c2,c3,c4,**kwargs): super(Incept...

2021-12-04 14:30:20 360

原创李沐笔记（NiN）

1*1的卷积层相当于全连接层import torchfrom torch import nnfrom d2l import torch as d2l# NiN块def nin_block(in_channels,out_channels,kernel_size,strides,padding): return nn.Sequential(nn.Conv2d(in_channels,out_channels,kernel_size,strides,pad...

2021-12-04 13:27:24 1266

原创李沐笔记（使用块的网络VGG）

import torchfrom d2l import torch as d2lfrom torch import nn# 卷积层个数输入通道个数输出通道个数def vgg_block(num_convs,in_channels,out_channels): layars=[] for _ in range(num_convs): layars.append(nn.Conv2d(in_channels,out_channels,k...

2021-12-03 20:41:09 382

原创李沐笔记（深度卷积神经网络 AlexNet）

import torchfrom d2l import torch as d2lfrom torch import nnnet = nn.Sequential(nn.Conv2d(1,96,kernel_size=11,stride=4,padding=1), nn.ReLU(), nn.MaxPool2d(kernel_size=3,stride=2), ...

2021-12-03 19:02:48 1062

原创李沐笔记（卷积神经网络（LeNet））

LeNet（LeNet-5）由两个部分组成：卷积编码器：由两个卷积层组成; 全连接层密集块：由三个全连接层组成。import torchfrom torch import nnfrom d2l import torch as d2l# LeNet由两个部分组成：卷积编码器和全连接层密集块class Reshape(torch.nn.Module): def forward(self, X): return X.view(-1,1,28,28) # ..

2021-12-03 16:00:14 872

原创李沐笔记（池化层）

import torchfrom torch import nnfrom d2l import torch as d2l# 实现池化层的正向传播def pool2d(X, pool_size, mode='max'): p_h, p_w = pool_size Y = torch.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1)) for i in range(Y.shape[0]): ...

2021-12-02 12:33:33 921

原创李沐笔记（多输入输出通道）

输入通道将其中几个特定模式进行组合识别import torchfrom torch import nnfrom d2l import torch as d2l# 实现多输入通道互相关运算def corr2d_multi_in(X, K): # 先遍历 “X” 和 “K” 的第0个维度（通道维度）(zip)，再把它们加在一起 return sum(d2l.corr2d(x, k) for x, k in zip(X, K))...

2021-12-01 16:53:27 837

原创李沐笔记（填充和步幅）

输入输出的形状不变import torchfrom torch import nn# 在所有侧边填充1个像素def comp_conv2d(conv2d, X): X = X.reshape((1,1)+X.shape) Y = conv2d(X) return Y.reshape(Y.shape[2:])conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)X = torch.rand...

2021-12-01 12:59:45 2435

原创李沐笔记（卷积层）

MLP单隐藏层需要存储36亿个元素36M个特征——输入有3600万个元素hidden-size为100 神经元——权重：100*3600万=36亿=14GB从全连接层出发运用这两个原则（平移不变性、局部性）得到卷积（卷积是特殊的全连接层）权重由2维变成了4维，hij是两个维度上的求和h、w：高、宽import torchfrom d2l import torch as d2lfrom torch import nn# ...

2021-11-30 17:24:04 434

原创李沐笔记（丢弃法）

x是到下一层的输出；p是丢弃当前数据的概率import torchfrom torch import nnfrom d2l import torch as d2ldef dropout_layer(X, dropout): assert 0 <= dropout <= 1 # 在本情况中，所有元素都被丢弃。 if dropout == 1: return torch.zeros_like(X) # 在本情况中，所...

2021-11-24 16:22:46 1213

原创李沐笔记（权重衰退）

处理过拟合的一种方法：weight decay如何控制模型容量：减小参数、减小每个参数值的范围import torchfrom torch import nnfrom d2l import torch as d2l# 生成数据n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05train_...

2021-11-24 14:35:56 723

原创李沐笔记（模型选择+过拟合和欠拟合）

训练误差：模型在训练数据上的误差泛化误差：模型在新数据上的误差（*）例：在过去的考试中表现很好（训练误差）不代表在未来考试一定会好（泛化误差）验证数据集：一个用来评估模型好坏的数据集（和训练数据集不一样）测试数据集：只用一次的数据集K-折交叉验证：在没有足够多的数据时使用。（常用：K=5,10）算法：将训练数据分割成K块；For i=1，...，K，使用第i块作为验证数据集，其余的作为训练数据集；报告K个验证集误差的平均模型容量：模型复杂度d+1：d个w和1个..

2021-11-23 20:26:55 1494

原创李沐笔记（多层感知机）

感知机：多层感知机：激活函数：多类分类：在softmax的基础上加了一层隐藏层——多层感知机# 多层感知机从零开始实现import torchfrom torch import nnfrom d2l import torch as d2lbatch_size = 256 #批量大小train_iter, test_iter = d2l.load_data_fashion_mnist(...

2021-11-20 16:25:11 625

原创李沐笔记（softmax回归）

回归：估计一个连续值（房价问题）分类：预测一个离散类别（预测图片中是猫是狗）kaggle上的分类问题：将人类蛋白质显微镜图片分成28类、将恶意软件分成9类、将恶意的Wikipedia评论分成7类。损失函数：...

2021-11-20 13:56:06 1106

原创李沐笔记（线性回归）

一个简化模型（权重和偏差的实际值在后面决定）：线性模型：线性模型可以看做是单层神经网络（输入维度是d，输出维度是1，每个箭头表示一个权重））：衡量预估质量：训练数据：参数学习：显示解：总结：基础优化算法：梯度下降：选择学习率：不能太小（每一步的步伐有限，到达一个点需要很多步（很贵））不能太大（震荡，没有向一个方向下降）小批量随机梯度下降:选择批量大小：总结：...

2021-11-16 17:46:33 2107

翻译 Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Path

基于最短依赖路径的长短期记忆网络关系分类摘要关系分类是自然语言处理领域的一个重要研究方向。本文提出了一种新的神经网络SDP-LSTM，用于对句子中两个实体之间的关系进行分类。我们的神经体系结构利用了两个实体之间的最短依赖路径(SDP);具有长短期记忆单元的多通道递归神经网络沿着SDP提取异质信息。该模型具有以下特点:(1)最短的依赖路径保留了大部分相关信息(对关系分类)，同时剔除了句子中不相关的词。(2)多通道LSTM网络允许异构源在依赖路径上进行有效的信息集成。(3)自定义dropout策略对神经

2021-10-08 17:07:57 708