【机器学习】参数估计,非参数估计,监督学习,无监督学习

最新推荐文章于 2024-05-04 15:35:39 发布

bdview

最新推荐文章于 2024-05-04 15:35:39 发布

阅读量217

点赞数

文章标签：机器学习 python 人工智能深度学习 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42319496/article/details/119372765

版权

参数估计

已经知道观测数据符合某些模型的概率下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。这个过程中用到了一个条件，就是概率分布符合某些模型这个事实。在这个事实上进行加工。

(https://www.cnblogs.com/wt869054461/p/5935981.html)

个人理解：概率密度函数形式已知，求出形式中的参数。

非参数估计(无参密度估计)

实际中，概率密度形式往往未知，往往有多个局部最大；对于高纬度样本，一些高纬度的概率密度函数可以用低纬度密函数的乘积表示的假设通常也不成立。所以概率密度函数形式未知，只能用别的方法求概率密度。

概率密度估计--参数估计与非参数估计

我们观测世界，得到了一些数据，我们要从这些数据里面去找出规律来认识世界，一般来说，在概率上我们有一个一般性的操作步骤

1. 观测样本的存在

2. 每个样本之间是独立的

3. 所有样本符合一个概率模型

我们最终想要得到的是一个概率密度的模型，有了概率密度模型以后，我们就可以统计预测等非常有用的地方，因此，首要任务是找出一些概率分布的概率密度模型。

我们来分析一下上面的三个步骤，第一第二都很好解决，关于第三点，我们可以有不同的处理方式

如果我们已经对观测的对象有了一些认识，对观测的现象属于那种类型的概率密度分布已经了解了，只是需要确定其中的参数而已，这种情况就是属于参数估计问题。

如果我们研究观测的对象，也很难说这些观测的数据符合什么模型，参数估计的方法就失效了，我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。

因此，本文主要讨论参数估计和非参数估计问题

1. 参数估计

对我们已经知道观测数据符合某些模型的情况下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。这个过程中用到了一个条件，就是概率分布符合某些模型这个事实。在这个事实上进行加工。

一般来说，参数估计中，最大似然方法是最重要和最常用的，我们重点介绍参数估计方法

我们在《无基础理解贝叶斯》中已经讲过似然性，那么我们就可以先写出似然函数。

假设有N个观测数据，并且概率模型是一个一维的高斯模型，用f(x)表示高斯模型，参数待定，因此我们可以写出似然函数

L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设(上面提到的一般步骤的第二条)

然后把对似然函数取对数

logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))

我们既然提到了极大释然方法，那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。

因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。

注意，如果似然函数求导有困难，通常我们会用迭代方法去求得这些参数，后面我们讲EM算法就是属于此类型

2. 贝叶斯方法

在我们谈到参数估计方法中，我们假定了参数是固定值，但是贝叶斯观点会人文，模型的参数值不是固定的，也是属于某种分布的状态。

因此我们做参数估计的时候其实是不准确的，因此贝叶斯方法会把参数的也作为一个概率考虑进来，然后再去观测。

我个人理解，这种方式也只能算是参数估计里面的一个变种而已

后验概率 ∝ 似然性 * 先验概率

先验概率，我们可以看成是待估计模型的参数的概率分布，后验模型是在我们观测到新的数据以后，结合先验概率再得出的修正的参数的分布

注意，如果似然函数的形式和先验概率的乘积有同样的分布形式的话，得到的后验分布也会有同样的分布模型

因此，人为的规定，如果先验概率与似然函数的乘积在归一化以后，与先验分布的形式上是一致的话，似然函数与先验概率就是共轭的，注意共轭不是指先验与后验的共轭

至于满足这个条件的共轭分布有很多种，二项分布与贝塔分布，多项式分布于狄利克雷分布等

后面有时间再更新一些贝叶斯方法相关的内容

3. 非参数估计

看过了参数估计后，我们知道，如果有模型的知识可以利用的话，问题就会变得很简单，但是如果没有关于模型的知识，我们怎么办？

回过头来看我们的目标，求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析，看有没有可以入手的地方。

概率密度，直观的理解就是在某一个区间内，事件发生的次数的多少的问题，比如N(0，1)高斯分布，就是取值在0的很小的区间的概率很高，至少比其他等宽的小区间要高。

我们把所有可能取值的范围分成间隔相等的区间，然后看每个区间内有多少个数据？这样我们就定义出了直方图，因此直方图就是概率密度估计的最原始的模型。

直方图我们用的是矩形来表示纵轴，当样本在某个小区间被观测到，纵轴就加上一个小矩形。

这样用矩形代表的模型非常粗糙，因此可以用其他的形状来表示，进一步就是核密度估计方法，这个后面会有一个翻译文章来具体讲解

基本上，参数估计和非参数估计是概率模型里面用的非常多的基本概念，希望自己在后面忘记的时候还能想起来曾经写过的东西

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】参数估计,非参数估计,监督学习,无监督学习

参数估计已经知道观测数据符合某些模型的概率下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。这个过程中用到了一个条件，就是概率分布符合某些模型这个事实。在这个事实上进行加工。 (https://www.cnblogs.com/wt869054461/p/5935981.html) 个人理解：概率密度函数形式已知，求出形式中的参...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。