这是一个复杂的问题,没有完美的答案。我将试着给你一个主要概念的概述,并为你指出一些有用的阅读方向。
假设你有一组一维的数据,并且你有一组有限的概率分布函数,你认为这些数据可能是从中产生的。您可以独立地考虑每个分布,并尝试根据您的数据找到合理的参数。
对于给定数据的概率分布函数,有两种设置参数的方法:
根据我的经验,近年来,最大似然法被优先考虑,尽管在每个领域可能都不是这样。
下面是一个如何估计R中参数的具体示例。考虑一组由平均值为0且标准差为1的高斯分布生成的随机点:x = rnorm( n = 100, mean = 0, sd = 1 )
假设您知道数据是使用高斯过程生成的,但是您忘记了(或者永远不知道!)高斯函数的参数。你想用这些数据来合理估计平均值和标准差。在R中,有一个标准库使这一点非常简单:library(MASS)
params = fitdistr( x, "normal" )
print( params )
这给了我以下输出:mean sd
-0.17922360 1.01636446
( 0.10163645) ( 0.07186782)
这些非常接近正确答案,括号中的数字是参数周围的置信区间。记住,每次生成一组新的点时,都会得到估计值的新答案。
在数学上,这是使用最大似然来估计高斯分布的均值和标准差。似然是指(在这种情况下)“数据给定参数值的概率”。最大似然是指“使生成输入数据的概率最大化的参数值”。最大似然估计是用于查找使生成输入数据的概率最大化的参数值的算法,对于某些分布,它可能涉及numerical