Loss Function view---关于损失函数的介绍

一、Loss Function

什么是Loss Function?wiki上有一句解释我觉得很到位,引用一下:The loss function quantifies the amount by which the prediction deviates from the actual values。Loss Function中文损失函数,适用于用于统计,经济,机器学习等领域,虽外表形式不一,但其本质作用应是唯一的,即用于衡量最优的策略。本章只从机器学习(ML)领域来对其进行阐述,机器学习其实是个不停的模拟现实的过程,比如无人驾驶车,语音识别,流感预测,天气预报,经济周期行为等众多领域,是互联网发展过程中“科学家”(暂且这么称呼吧)对于人类文明进步的另一个贡献,其本质就是要建立一个数学模型用于模拟现实,越接近真实越好,那么转化为数学语言即LF越小越好,因为LF值代表着现实与学习预测的差距,这个不停的缩小LF值的过程就称为优化,如果理解这些的话,就不难理解优化问题对于ML来说的重要性了,如水之于鱼,魂之于人!


二、几种Loss Function概述

如上一节所述,LF的概念来源于机器学习,同时我们也知道机器学习的应用范围相当广泛,几乎可以涵盖整个社会领域,那么自然不同的领域多少会有不同的做法,这里介绍在一般的机器学习算法中常见的几种,具有概括性

2.1 一般形式

J(w)=iL(mi(w))+λR(w)

LF分为两部分:L+R,L表示loss term,其中mi(w)=y(i)wTxiy(i){1,1},w表示学习出来的权重,该公式的作用很明显了,用来收集现实与学习结果的差距,是LF的核心部分,LF的不同大部分也是指的loss term的不同;R表示范式,范式存在的意思是进行约束,以防止优化过偏。

2.2 一般的loss term有5种,分别用于5种常见的机器学习算法

Gold Standard(标准式)于理想sample,这种一般很少有实践场景,这个方法的作用更多的是用来衡量其他LF的效用;Hinge于soft-margin svm算法;log于LR算法(Logistric Regression);squared loss于线性回归(Liner Regression)和Boosting。

1)Gold Standard loss,一般我们称这个LF为L01,从公式中可以看出该公式的主要职责是在统计多少个错误的case,很明显现实数据不允许如此简单的统计方式


从公式我们可以很清楚的看出,当m<0的时候L=1,m<0说明预测失败,那么Loss则加1,这样将错误累加上去,就是Gold Standard loss的核心思想。

2)hinge loss,常用于“maximum-margin”的算法,公式如下

l(y)=max(0,1mi(w))

这个公式也很好理解,其中mi(w)在前面介绍过,表示样本i在模型下的预测值的样本i的类标记{-1,1}的乘积,这个乘积可以用来检验预测与真实结果是否一致来表示分类是否正确,当乘积大于0时表示分类正确,反之亦然。

3) log loss(一般又称为基于最大似然的负log loss)

likelihood=

l(y)=likelihood

其中 是log函数

最大似然思想指的是使得某种情况发生的概念最大的思想,根据LR的思想(参考这篇文章logistic回归深入篇(1)),我们知道g(w)对应的simod图,其将实域上的值映射到区间{0,1},因此我们可以把g(w)看作事件A发生的概率,那么1-g(w)可以看作事件A不发生的概率,那么公式likelihood表达的含义就很明显了,y也是一个概率值,可以看做是对事件A与A逆的分量配额,当然我们的期望是A发生的可能越大越好,A逆发生的可能越小越好!因此likelihood是一个max的过程,而loss是一个min的过程,因此log loss是负的likelihood。

4)square loss

这个loss很好理解,就是平方差,loss 一般也成为最小二乘法

5)boosting loss

这个loss主要是基于指数函数的loss function。

三、几种Loss Function的效果对比

上图是多LF的效果对比图,其中蓝色的是Gold loss,可以看作水平基线,其他的loss的效果可以基于与它的比较结果,首先,红色的是Hinge loss,黄色的是log loss,绿色的是boosting loss,黑色的是square loss,从上图可以看出以下结论: Hinge,log对于噪音函数不敏感,因为当m<0时,他们的反应不大,而黑线与绿线可能更爱憎分明,尤其是黑线,因此,在很多线性分类问题中,square loss也是很常见的LF之一。



在PyTorch中训练CNN-GRU模型,可以使用nn.Module类来构建模型。下面是一个简单的示例代码,其中包含一个CNN层和一个GRU层: ```python import torch import torch.nn as nn class CNN_GRU_Model(nn.Module): def __init__(self): super(CNN_GRU_Model, self).__init__() # CNN layer self.cnn = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2), nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) # GRU layer self.gru = nn.GRU(input_size=32*6*6, hidden_size=64, num_layers=1, batch_first=True) # Output layer self.out = nn.Linear(64, 10) def forward(self, x): x = self.cnn(x) x = x.view(x.size(0), -1) x, _ = self.gru(x) x = self.out(x[:, -1, :]) return x ``` 在上述代码中,我们首先定义了一个`CNN_GRU_Model`类,继承自`nn.Module`类。该类包含三个层,分别是CNN层、GRU层和输出层。 在`__init__`函数中,我们定义了CNN层和GRU层。CNN层包含两个卷积层和两个池化层。GRU层包含一个单层的GRU网络,其中输入大小为32\*6\*6,隐藏层大小为64。输出层使用一个线性层,将GRU层的输出映射到10个类别上。 在`forward`函数中,我们首先将输入通过CNN层进行卷积和池化,然后将输出展平成二维张量。接着,我们将展平后的张量输入到GRU层中,得到GRU层的输出。最后,我们将GRU层的最后一个时间步的隐藏状态输入到输出层中,得到最终的分类结果。 接下来,我们可以使用上述模型来训练一个分类任务的数据集。假设我们使用的是CIFAR-10数据集,可以使用以下代码进行训练: ```python import torchvision.datasets as datasets import torchvision.transforms as transforms # Load CIFAR-10 dataset train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transforms.ToTensor()) test_dataset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transforms.ToTensor()) # Define dataloader train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False) # Define model model = CNN_GRU_Model() # Define loss function and optimizer criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # Train the model num_epochs = 10 for epoch in range(num_epochs): for images, labels in train_loader: # Forward pass outputs = model(images) loss = criterion(outputs, labels) # Backward and optimize optimizer.zero_grad() loss.backward() optimizer.step() # Evaluate the model on test set with torch.no_grad(): total = 0 correct = 0 for images, labels in test_loader: outputs = model(images) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = correct / total # Print the accuracy for each epoch print('Epoch [{}/{}], Accuracy: {:.2f}%'.format(epoch+1, num_epochs, accuracy*100)) ``` 在上述代码中,我们首先加载CIFAR-10数据集,并定义一个dataloader。然后,我们定义了模型、损失函数和优化器。接着,我们使用循环进行训练,每个epoch都对整个训练集进行一次遍历。在每个epoch中,我们使用测试集来评估模型的性能,并输出准确率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值