王木头学科学笔记~损失函数是如何设计出来的?直观理解“最小二乘法”和极大似然估计法和交叉熵,比较两个概率模型的思路

 声明:原作者为哔哩哔哩上up主   王木头学科学   本人仅在此处做笔记供自己学习分享如果给大家提供帮助就更好了,已征得本人同意。

在训练神经网络的过程中,需要有一个损失函数,来进行梯度下降,那么这个损失函数是怎么设计出来的呢?

  1. 最小二乘法
  2. 极大似然估计法
  3. 交叉熵

神经网络就是线性函数+激活函数,形式上非常简单,却能表现出复杂的智能特性。 神经网络它按照人为设定的标准来执行任务,问猫是什么,不知道,但是只需要告诉是不是猫,人家自己就知道训练了,在它那里建立一个标准,和人的标准进行对比,目的就是调整自己和人的标准进行拟合。

人和神经网络交互的接口就是带标签的数据(是不是猫)。

然后我们需要比对人脑和神经网络的标准差距,通过二者不同结果来进行比对。

我们需要通过一些方法来定量比较两个模型差别,说白了这不就是损失函数了。。。

降低损失函数的过程,就是学习的过程,修改权重嘛。下面是两个吴恩达大佬的损失函数。

 

 哈哈哈哈, 帅气的木头哥,吴恩达大佬的这两个式子,到底是怎么提出来的呢?总有一种不通透的感觉哈哈哈

 input一堆猫的图片,每一个图片有一个标签是不是猫,如果是猫xi就是1,否则0,yi经过sigmoid函数之后,判断是猫的概率是多少,比较两个模型的差直接min\ \Sigma |xi - yi|不行吗,为啥平方呢?因为绝对值可能是不可导的,在梯度下降的过程中是要反向求导的,对其进行平方。 

最大似然估计:

        概率的反向应用. 一个是理念世界,一个是现实世界,理念世界里左边的概率分布是0.5 0.5

 现实世界里面就是抛硬币,如果确定了概率,那么理想情况下就是右边绿色的五五开,同样从现实世界也能往理念世界反推,如果抛出来是五五开的,我们很可能认为抛出来概率就是五五开,理念世界和现实世界怎么联系起来,就是通过概率。

如果理念世界确定了五五概率分布,那现实世界也可能出现三七开和二八开,都可能,一九开也可能。

 

 同样的道理,如果现实世界是七三,那么上图左边的分布律也有可能出现呀?都有可能呀

但是上述三个概率模型并不是等价的。

 这个公式指的是,在这样的概率模型下,投出右边的概率是多少。 

 这些个可能性,是从真实世界反退回来的,其实也是可能性,就叫似然值。 最大似然就是选一个最可能出现这样分布的。也就是第二个出现的可能性是最大的。

下面将极大似然估计放在神经网络里。

 

 同样的,所有的图片(上图中只画了猫),标签是xi为0或1,输出是yi,

W,b表示的是这个模型。和上面的\Theta一样,x1x2...对应的硬币的正反(现实世界),也就是说用理论世界的模型,判断出现这样的结果的概率,通过更改这个模型,得到的概率最大,就可以找到这个最拟合的模型。

将所有的结果连乘判断概率(这里感觉应该是当成独立,不是很清楚),

(还有这个公式我也不是很懂,yi当然是NN预测出来的,可是为什么可以用它代替这个模型呢。这个就不懂了)

下面换成了 这个之后就是很easy的概率论问题了,很显然,这是一个伯努利分布,因为x_{i}\in {0,1}

 

因为y就是p,所以上面左边式子可以换成右边式子。

 因为我们是需要找到这个的最大值,所以我们加上一个log,并不影响单调性,但是可以将其换成连加的形式,

 

 找到似然值最大的概率模型,加个-变成找最小,

  

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最小二乘法(Least Squares Method)和极大似然(Maximum Likelihood Estimation,MLE)都是统计中用于估计参数的重要方,但它们的基本理念和应用场合有所不同。 **最小二乘法**: - 基本思想:这种方通常用于线性回归问题,目标是最小化残差平方和,即实际值与预测值之间的差距的平方之和。它假设数据误差服从高斯分布,且均值为0,标准差已知或未知。 - 使用场景:当模型与真实关系存在线性偏差时,比如拟合一条直线(简单线性回归)或多项式曲线。 - 参数求解:通过求解含有待估参数的矩阵方程,找到使误差平方和最小化的参数组合。 **极大似然**: - 基本思想:这种方关注的是根据观测数据,寻找最有可能产生这些数据的模型参数。它是基于概率论中的似然函数,即给定模型参数的概率密度函数的最大值。 - 应用广泛:不仅限于线性模型,适用于各种离散或连续随机变量的模型,包括但不限于多项式分布、指数分布、正态分布等。 - 参数求解:寻找使得数据对数似然函数最大的参数值,通常涉及到数值优化方如梯度上升或牛顿。 **区别总结**: 1. 最小二乘法更侧重于误差的平方和最小化,而极大似然则关注数据出现的概率最大。 2. 最小二乘法通常假定误差为线性和加性的,而极大似然则更为灵活,适应不同类型的分布。 3. 最小二乘法直接求解最优参数,计算过程相对直观;极大似然可能需要迭代求解,且结果依赖于初始猜测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值