对极大似然估计的一点理解

上学期学模式识别的时候,就很疑惑为什么直接令概率等于概率密度函数的值,但并没有管他多,最近看相关论文,重新复习了极大似然估计,有一点新的理解,但不一定正确。

极大似然估计是什么?
        - 从后验概率说起,后验概率是:  我已经获得了一个数据,这个数据可能来自不同的类别,那么在假设它来自某一类别,这个假设为真的概率,就是后验概率
        - 那什么是似然呢?每个类别,都服从一个分布,每个分布出现已知数据的可能性,就是似然。 那么问题来了,只要是连续的分布, 不管什么分布,它出现某以一特定值的概率都为0
         - 所以似然是没有意义的,那难道这些理论错了吗?
        - 我个人的理解是,当我们进行极大似然估计时,只关心,到底是哪一个类别的分布,最有可能出现我已知的数据,即出现已知数据的概率最大。而无穷小,也能比较大小。因此,我们只需要找一个等价函数,作为似然函数
        - 假设各个类型分布函数已知,那么各个类型出现已知数据的概率就是各分布在已知数据点的无穷小邻域的积分。一维的情况下就是与x轴围城的面积,即:

\delta f(x_0)

 
         - 所以不同分布的概率密度函数,δ是等价无穷小,只要在已知数据点的函数值大,那么它所对应的出现已知数据的概率就更大。
         - 因此,用概率密度函数来作为似然函数完全可以,因为能够使概率密度函数在已知数据点处函数值最大的分布,同时也让似然函数值取最大。

极大似然估计,估计了什么东西?

 未完待续....

2024.3.14更

        - 考虑一维数据
            -  首先以初始点作为原点,检测到一前一后特征点,其位置为:x_1\ \ \ \ x_2
            - 下一个时刻,检测到同样的两个特征点,其位置为:  x_3\ \ \ \ x_4
            - 那么在这个时刻,我怎么知道自己在哪儿呢?
                - 假当前的位置为 X
                - 并且上一个时刻,与当前时刻的特征点已经匹配上了,因此当前的位置可以表示为:                     

                                                                   X_1=x_3-x_1

                                          或                     X_2=x_4-x_2
                - 如果只用其中一个,是不是浪费另外一个数据了?为了不浪费数据,我们将他们结合起来,共同约束 X
                - 非常重要的一点假设:真实的 X 不是确定的,而是满足一个概率密度函数的随机量虽然听上去不可思议,但我们这样假设。下面我们假设计算出的两个数据点满足同一个正态分布,即独立同分布。
                - 非常自然的想到了极大似然估计,在已知这两个数据点的情况下,哪个分布,能够使得出现这两个数据点出现的概率最大?
                - 设 X 的分布为 W,有:

                               P(X=X_1,X=X_2\ |\ W)=P(X_1\ |\ W)P(X_2\ |\ W)
                - 在上一节我们说了,求使之最大的那个参数W,同样能够使X的概率密度函数值最大,因此把概率密度函数式子带进去,然后解出概率密度函数的参数,不就确定了X最可能符合的分布吗?
        - 多维同理!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值