高中水平都能看懂的梯度下降法(仔细到细思极恐)

本文旨在用通俗易懂的方式解释梯度下降法,从损失函数的概念开始,逐步引入最大似然估计,再到手动求解损失函数的最小值。通过实例解析,详细阐述梯度下降法的原理,帮助读者理解这一优化算法的核心思想。
摘要由CSDN通过智能技术生成

有没有人和我一样看了别人写梯度下降的博文,什么站在山谷往下走啊,什么偏导啊,一脸懵逼,我也是懵逼几天才摸到一点点皮毛,我把我所想的分析下,能让我以后能回来看看,反复记忆下思路,也希望能帮助你能看懂一点点.

首先

什么是梯度下降法?先弄懂这个概念才能继续往下学习
1.梯度下降法,简单来说是一种计算方法,用来计算什么呢?就是计算损失函数的最优解,也就是最小值,很多博文所说的θ的最小值.
是不是很懵逼,什么是损失函数,什么是最优解,现在我仔细讲解下.我还是分目录来吧,这样能有一个总的分析

目录 损失函数
最大似然估计
手动解θ最小值
梯度下降法

概念一.损失函数(这个是知道的吧,)

说到损失函数,举个例子吧,还是万金油例子,卖房子吧,(感觉深度学习以后是不是要向卖房子靠拢啊,预测以后房价高低,能赶紧赚一波钱).
假设,我从市场收集一堆房价的数据,那这些数据肯定跟房子的信息,比如房子的面积,房间数量,房子价钱有关.
假设 x i = ( 1 , 2 , 3 , 4 , 5 , 6... m ) x^i=(1,2,3,4,5,6...m) xi=(1,2,3,4,5,6...m) y i = ( 1 , 2 , 3 , 4 , 5 , m ) y^i=(1,2,3,4,5,m) yi=(1,2,3,4,5,m)(数据的个数)

房子面积( x i x^i xi) 房子总的售价(元) y i y^i yi
50 m 2 m^2 m2 5000
60 m 2 m^2 m2 5500
70 m 2 m^2 m2 6000

那我用这些数据干嘛,那肯定是做预测房价啊,也就是说,我用这些数据会做一个预测 ,预测值 =y(预),那预测值怎么算啊?不就是房子的面积x每平方米的价钱吗,你会发现卖5000的房子 ÷ 50 m 2 m^2 m2 相当于 1 m 2 m^2 m2 100(元),卖5500的房子 ÷ 60 m 2 m^2 m2 相当于91.67(元),
发现没有,这不同房子每一平方米卖的价钱不一样啊,那我想知道一个准确的数值怎么办?所以这时候就要靠计算机了,我们给一堆上面房子的数据给计算机来计算,数据越多,那每平方米卖的价钱就更准确.(这里提醒下,我这么说只是让大家好理解,你知道在实际生活中,房子卖多少钱的数据不是只有面积,还有地段啊,房间数量啊,还有房子老旧啊,但是,但是什么呢 这样不难,因为我们下面列的公式,后面再把这些数据也输入进去就行了 ,至于怎么输入脑补吧.)

那房子的预测售价怎么算?不就是等于 =每平方米*每平方米的售价吗, (这个每平方米的售价不一样,所以我们设置为θ)
θ也有很多个数就是 θ t = ( 1 , 2 , 3 , . . . n ) θ^t=(1,2,3,...n) θt=(1,2,3,...n)
来来来,我们列个公式吧 y(预)= θ t x i θ^tx^i θtxi 这个公式不就是很多博客写的 H ( θ ) H(θ) H(θ).
H ( θ ) = θ t x i H(θ)=θ^tx^i H(θ)=θtxi
等等,这个只是一个预测值,那么我们总要知道他和真正的值差多少吧,不然你预测的跟真实的差个天翻地覆,房子不是卖亏了,
有没有发现我们上面那个表,房子总售价设为 y i y^i yi,这就是真实值.
如果我有一套50 m 2 m^2 m2,房子, 他不可能也卖到五千块的吧,所以就有

y i − y ( 预 ) = ε y^i-y(预)=ε yiy()=ε(真实值-预测值,ε就是这个差)
ε = y i − θ x i ε=y^i-θx^i ε=yiθxi

最大似然估计

这时候 y i y^i yi是一个列向量 − - y(预)列向量 得到的 ε ε ε是一个随机变量,为什么这么说,
因为 y 1 y^1 y1 − - y ( 预 ) 1 y(预)_1 y()1的是一个 ε 1 ε_1 ε1,
y 2 y^2 y2 − - y ( 预 ) 2 y(预)_2 y()2的是一个 ε 2 ε_2 ε2
y 3 y^3 y3 − - y ( 预 ) 3 y(预)_3 y()3的是一个 ε 3 ε_3 ε3
.
.
.
y n y^n yn − - y ( 预 ) n y(预)_n y()n的是一个 ε n ε_n εn
这么一顿操作下来,n个随机变量的 ε ε ε的分布是符合正态分布的.
按照中心极限定理来讲,大量随机变量累积分布函数逐点收敛到正态分布的累积分布函数的条件.在自然界中,一些现象受到许多相互独立的随机因素的影响.如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的.中心极限定理就是从数学上证明了这一现象.
看文字是不是很不明白,你可以理解为,当所得数差距很小时,他们汇集在比较中心的一些位置,而这刚好符合正态分布的定理,用图表示下吧在这里插入图片描述

说了 ε n ε_n εn随机变量是属于正态分布的,那么我们证明下, ε n ε_n εn出现在正态分布总的概率是多大,就是求总似然估计(这时候就懵逼了,总似然又是什么东西,搞那么多乱七八糟的干嘛,其实到这里就是为了 把损失函数的真面目撕开,把他分析透彻去,好吧那就开始吧)

那么最大似然估计是什么呢?其实他是跟正态分布是密切相关的,最大似然估计就是去找参数估计值,使得已经观察到的样本值发生概率最大(这里也是不理解吧),直接上菜好了,正态分布高中的时学过吧(我这种差生又看了 正态分布一遍),先列出他的公式:
f ( x ) = 1 σ 2 π e x p ( − ( x ) 2 2 σ 2 ) f(x)=\frac{1}{σ\sqrt 2π}exp(-\frac{(x)^2}{ 2σ^2}) f(x)=σ2 π1exp(2σ2(x)2)
我们不是要求 ε n ε_n εn出现在正态分布的概率吗,那我们就把 ε n ε_n εn放到正态分布公式中,
那么就有 P ( ε n ) = 1 σ 2 π e x p ( − ( ε n ) 2 2 σ 2 ) P( ε_n)=\frac{1}{σ\sqrt 2π}exp(-\frac{(ε_n)^2}{ 2σ^2}) P(εn)=σ2 π1exp(2σ2(εn)2)
把上面的式子里的ε_n展开就有(复制上面式子啊 手打真的太累)
P ( y i ∣ x i ; θ ) = 1 σ 2 π e x p ( − ( y i − θ t x i ) 2 2 σ 2 ) P(y^i|x^i;θ)=\frac{1}{σ\sqrt 2π}exp(-\frac{(y^i-θ^tx^i)^2}{ 2σ^2}) P(yixi;θ)=σ2 π1exp(2σ2(yiθtxi)2)
发现没有这个正态分布的参数只有θ了,(感觉一圈下来,就是为了解这个θ,损失函数也是为了求θ,这可能就是为了撕开他的面目撕他吧)最大似然估计就是去找参数估计值,使得已经观察到的样本值发生概率最大

那么公式也有了.最大似然估计又是什么还没讲出来(怎么这么拖拉呢)
上式似然函数为
L ( θ ) = ∏ i = 1 n P ( y i ∣ x i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值