挑子学习笔记：对数似然距离（Log-Likelihood Distance）

最新推荐文章于 2019-09-19 21:10:27 发布

weixin_30912051

最新推荐文章于 2019-09-19 21:10:27 发布

阅读量1.3k

点赞数

文章标签：数据库人工智能

原文链接：http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html

版权

本文详细介绍了对数似然距离的统计学基础，包括极大似然估计方法及其在概率分布估计中的应用。文章通过具体例子阐述了如何计算连续型和离散型随机变量的似然函数及极大似然估计，接着讨论了数据集划分对数似然值和对数似然距离的概念，为理解BIRCH层次聚类算法提供理论支持。

摘要由CSDN通过智能技术生成

转载请标明出处：http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html

本文是“挑子”在学习对数似然距离过程中的笔记摘录，文中不乏一些个人理解，不当之处望多加指正。

对数似然距离是基于统计理论的一种计算簇与簇相异度的方法，最早用于BIRCH层次聚类算法的改进。本文旨在详细介绍对数似然距离的统计学基础、方法思想和计算过程，希望帮助更多地人欣赏它、熟悉它、使用它。

1、极大似然估计（Maximum Likelihood Estimate）

极大似然估计方法是求点估计的另一种方法，1821年首先由德国数学家C. F. Gauss（高斯）提出，但是这个方法通常被归功于英国的统计学家R. A. Fisher（罗纳德·费希尔），他在1922年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics (by R. A. Fisher), 1950, J. Wiley & Sons, New York 中再次提出了这个思想，并且首先探讨了这种方法的一些性质，极大似然估计这一名称也是费希尔给的。这是一种目前仍然得到广泛应用的方法^[1]。本节以下内容主要参考《数理统计学教程》^[2]编撰，如果对极大似然估计十分熟悉，可直接跳过本节。

假设大小为$n$的样本$X=(X_1, X_2, ..., X_n )$有概率函数$f(x;\theta) = f(x_1, ..., x_n; \theta)$：1）当$X$是连续型的，则$f(x_1,...,x_n;\theta)$是其联合概率密度，如果$X$是简单随机样本，即$X_1,...,X_n$是独立同分布的，概率函数可以表示成连乘形式$f(x_1,...,x_n;\theta) = f(x_1;\theta) \cdot ... \cdot f(x_n;\theta) $；2）当$X$是离散型的，则有$f(x_1,...,x_n;\theta) = P(X_1 = x_1, ..., X_n = x_n ; \; \theta) $，同样地，如果$X$是简单随机样本，有连乘的形式$f(x_1,...,x_n;\theta) = P(X_1 = x_1; \theta) \cdot ...\cdot P(X_n = x_n ; \theta) $.

定义 1：设样本$X=(X_1, X_2, ..., X_n )$有概率函数$f(x;\theta) = f(x_1, ..., x_n; \theta) $，其中参数$ \theta \in \Theta $. 当视$x$为常量，$\theta$为定义在参数空间$\Theta$上的自变量时，称函数$f(x, \theta)$为似然函数。

例 1：设有样本$X=(X_1, X_2, ..., X_n )$，$X_1,...,X_n \sim N(\mu, \sigma^2)$相互独立。此时参数为$\theta = (\mu, \sigma^2)$，参数空间$\Theta = \{ (\mu, \sigma^2) \in \mathbb R^2 : \sigma^2 \ge 0 \} $，根据定义 1上方的分析可计算似然函数&#x

最低0.47元/天解锁文章

weixin_30912051

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
挑子学习笔记：对数似然距离（Log-Likelihood Distance）

转载请标明出处：http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html 本文是“挑子”在学习对数似然距离过程中的笔记摘录，文中不乏一些个人理解，不当之处望多加指正。对数似然距离是基于统计理论的一种计算簇与簇相异度的方法，最早用于BIRCH层次聚类算法的改进。本文旨在详细介绍对数似然距离的统计学基础、...
复制链接

扫一扫