第四章mlp

最新推荐文章于 2024-07-24 14:31:04 发布

Selvaggia

最新推荐文章于 2024-07-24 14:31:04 发布

阅读量76

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_51070956/article/details/134353462

版权

生成数据集

读取数据集

data.TensorDataset(*data_arrays)

mlp训练

loss = nn.CrossEntropyLoss(reduction='none')

在这里插入图片描述

我要掌握所有人脖颈上的绳

权重衰减

简单概述就是在标准意义的loss函数（label值和计算值的差别）中再加上一个惩罚项，为什么要加，
有种loss函数，或许我说的是SVM，在进行分类任务时，分类结果，正确类别要比别的类别概率高，且要高过一个阈值，🔺theta，就算这个类别贡献的loss为0

这样一来，因为我们要训练优化的是我们的权重矩阵和偏置向量嘛，权重矩阵的可能性就会很多，权重矩阵乘上一个标量照样可以使得 loss值一样小，改为0的项还是为0
可能会导致，过拟合（参数复杂，数据过少），于是权重衰减，降低模型的复杂度，于是给loss函数加上一项，权重举证的L2范数正则化

暂退法

以p的概率将隐藏单元置为零时

不能过度依赖于h1, . . . , h5的任何一个元素

assert 0 <= dropout <= 1 断言语句

详细介绍assert model[i].weight_g is not None用法

assert(断言)，判断assert后的表达式是否为true，若为true就继续执行下面的代码，若为false，则触发异常

在给定的代码中，assert model[i].weight_g is not None 是一个断言语句，用于在代码中进行条件检查。它用于确保模型 model 的第 i 个子模块具有名为 “weight_g” 的属性，并且该属性的值不为 None。

断言语句在程序中用于检查条件是否满足，如果条件为真，则程序继续执行；如果条件为假，则会引发 AssertionError 异常，并中断程序的执行。

在给定的断言语句中，model[i] 表示模型 model 的第 i 个子模块。model[i].weight_g 表示第 i 个子模块的属性 “weight_g”。通过检查 is not None，断言语句确保该属性的值不为 None。

这种用法通常在开发和调试过程中使用，用于验证程序的假设和前提条件。在深度学习中，断言语句常用于检查模型的属性、参数或状态，以确保模型的正确性和一致性。

下面是一个示例，演示了断言语句的使用：

class MyClass:
    def __init__(self, value):
        self.value = value

my_obj = MyClass(10)

assert my_obj.value > 0
print("Assertion passed")  # 输出: Assertion passed

assert my_obj.invalid_attr is not None
print("Assertion passed")  # 不会执行，引发 AssertionError

需要注意的是，断言语句在生产环境中通常是关闭的，因为它们会对程序的性能产生一定的影响。因此，断言通常在开发、调试和测试阶段使用，用于验证程序的正确性和健壮性。
来自此处

1.assert断言函数

assert断言是声明其布尔值必须为真的判定，如果发生异常就说明表达示为假。用来测试表示式，其返回值为假，就会触发异常。

assert os.path.exists(root), "dataset root: {} does not exist.".format(root)
#os.path.exists(root)为false是执行逗号后语句
assert os.path.exists(json_path), json_path + " does not exist."

原文链接：https://blog.csdn.net/lxh248866/article/details/121458354

mask = (torch.rand(X.shape) > dropout).float()

def dropout_layer(X, dropout):
assert 0 <= dropout <= 1
# 在本情况中，所有元素都被丢弃
if dropout == 1:
return torch.zeros_like(X)
# 在本情况中，所有元素都被保留
if dropout == 0:
return X
mask = (torch.rand(X.shape) > dropout).float()
return mask * X / (1.0 - dropout)

mask可以理解成一个布尔型的张量，每一个值表示X对应下标的值是否要dropout

多敲了个n,randn是正态分布（均值为0方差为1的高斯分布），rand均匀分布
应该是rand吧？randn会出现小于0的值
前面说的应该有问题，randn是输出的是标准正态分布，rand才是输出的0到1的均匀分布

之后用该0 1矩阵乘以原矩阵，形状一致对应位置元素相乘，乘1保持不变，乘0就变0，相当于数据被dropout了，个人理解是这个过程
randn是mean=0,std=1的正态分布

大于dropout就是留下，小于等于dropout就是丢弃，所以丢弃的概率就是dropout

nn.Linear（输入输出neurals两个参数？）

self.lin1 = nn.Linear(num_inputs, num_hiddens1)
self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
self.lin3 = nn.Linear(num_hiddens2, num_outputs)
self.relu = nn.ReLU()

深度学习框架的高级API

nn.Sequential 把各层封装起来的容器？记得是lists of layers

net = nn.Sequential(nn.Flatten(),
nn.Linear(784, 256),
nn.ReLU(),
# 在第一个全连接层之后添加一个dropout层
nn.Dropout(dropout1),
nn.Linear(256, 256),
nn.ReLU(),
# 在第二个全连接层之后添加一个dropout层
nn.Dropout(dropout2),
nn.Linear(256, 10))

梯度，导数是对角矩阵？

输出层为向量，其中一个标量只对应一列权重，对其他输出标量的权重列导数为零，所以是对角矩阵

假设Wh输出一个向量， Relu相当于把向量中大于0的保留，小于0的变成零。也就是一个对角矩阵（除了对角线全是0）乘以Wh的效果。这里求导用了链式法则。

在这里插入图片描述
pandas真好，还能把列的名称告诉你哈哈哈哈

train_data = pd.read_csv(d2l.download('kaggle_house_train', cache_dir='./pytorch_data'))

all_features = pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:]))

【技巧1】把认为没关系的特征给去掉！
这里的traindata不是干掉了第一列和最后一列吗
train提取除了第1列（即代码的第0列）和最后一列之外的数据
列表的1：-1表示从第二个元素开始到倒数第二个元素结束，即不包括第一个和最后一个元素

因为后面那个本身就缺少价格特征，所以少了一列，而前面那个加了-1，但是不会取-1这一列，所以这样这俩列数就相等了

train比test多最后一列标号，所以多删掉最后一列
train_data的最后一列是label，就是房价，不是训练用的特征，所以要拿掉；但是在test_data里面没有

这里为什么要把train_data和test_data合并呢？

特征缩放：使得特征的值在[-1,1]之间。好处是梯度下降的快一点

pandas的object是python里的str，不是str文本就是数值

numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index

因为是比赛，可以得到测试集，就把测试集和训练集一起算方差

归一化其实不应该用训练和测试集的期望和方差，，这里只不过把官方给的训练和测试集统一变成训练集了

all_features[numeric_features] = all_features[numeric_features].apply(
lambda x: (x - x.mean()) / (x.std()))

把均值变成0方差变成1

这个地方其实是要注意的，因为normalization应该统一用train set的均值和方差

为什么不在算均值之前先填充na值呢

先归一化再填补0不会让数据产生误差(从均值和方差的公式中可以得出),反而可以减少运算量
pandas算均值时会自动忽略值为NaN的项，不能先用0填充，否则求均值的时候就不是原先数据的均值了

Selvaggia

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四章mlp

有种loss函数，或许我说的是SVM，在进行分类任务时，分类结果，正确类别要比别的类别概率高，且要高过一个阈值，🔺theta，就算这个类别贡献的loss为0。这样一来，因为我们要训练优化的是我们的权重矩阵和偏置向量嘛，权重矩阵的可能性就会很多，权重矩阵乘上一个标量照样可以使得 loss值一样小，改为0的项还是为0。可能会导致，过拟合（参数复杂，数据过少），于是权重衰减，降低模型的复杂度，于是给loss函数加上一项，权重举证的L2范数正则化。用来测试表示式，其返回值为假，就会触发异常。
复制链接

扫一扫