李航统计学方法-第一章极大似然估计&梯度下降

季康先生

已于 2023-09-15 15:52:26 修改

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：极大似然估计梯度下降参数估计似然函数迭代优化

于 2021-08-24 21:10:04 首次发布

本文链接：https://blog.csdn.net/qq_38195610/article/details/119898611

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

李航统计学方法

1.1-极大似然估计
1.2-梯度下降

1.1-极大似然估计

极大似然估计的核心思想就是此时此刻发生该事件的概率为最大，从而来计算待估参数。
举例说明
如图所示在掷硬币(质地不均匀)实验中求正面向上的概率 $\theta$
在这里插入图片描述

其中 $x_i$ 为实验结果，当重复实验做了n次，则似然函数为概率函数带未知数 $\theta$ 连乘的形式。做了n次实验，得到似然函数，似然函数的意义就是认为此时此刻正面朝上的概率为最大。
在这里插入图片描述

可以通过取对数，取对数的目的就是将原来的乘法变为加法，方便求导且与原函数极值点不变，求导之后等式为0的方式来求使得似然函数最大的未知参数 $\theta$ ，也可以将似然函数取对数在取反，接着使用梯度下降的方式进行参数估计。

1.2-梯度下降

首先要知道为什么需要梯度下降，因为相对一个函数直接求导等于0，从而求得位置参数，计算机更适合迭代的防暑，在计算量较小时，直接求导得到解析解速度占优，而在深度学习中全部是以矩阵的方式进行求导，且数据量很大，所以计算机更适合迭代式的梯度下降从而得到数值解。
在这里插入图片描述
如上图所示， $x^*$ 为使得f(x)得到最小值的点，假设f(x)首先是个凹函数，只有一个极值点，
首先第一步随机初始化 $x^0$ ，第二步代入f(x)得到 $y^0$ ，第三步计算x= $x^0$ 的梯度，在满足迭代条件的情况下，更新 $x$ ,更新公式为 $x^k+1=x^k-\eta*g_k$ ，其中 $\eta$ 为一个0到1之间的小数，接着再进行2步骤。如此循环，直至不满足迭代条件。其中gk有正有负，当求得f(x)在最小值点左侧，导数为负数，在更新时就会 $x^k$ 会加上一个正数，朝着最小值的方向移动，当求得f(x)在最小值点右侧，导数为正数，在更新时就会 $x^k$ 会减去一个正数，朝着最小值的方向移动，而就会其中迭代条件为可能是 $x^*$ 的精度，大部分可能是迭代次数。

自己定义一个一元二次函数，自定义初始点和步长，手动计算梯度下降法的前1000步。
定义y=x $^2$ +3 ,其导数为2x

import numpy as np
import matplotlib.pyplot as plt 
%matplotlib qt5
# encoding=utf-8
import matplotlib.pyplot as plt
from pylab import *         #支持中文
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
x=0.9
lr=0.01
res=[]
x_=[]
for i in range(1000):
    y=x**2+3
    x=x-lr*2*x
    x_.append(x)
    res.append(y)
    index=[i for i in range(len(res))]

plt.plot(index,res,label='y变化曲线')
plt.plot(index,x_,label='x变化曲线')
plt.legend()
plt.show()

在这里插入图片描述
我们可以发现随着循环次数的加深，x越来越趋近0，y越来越趋近3。