挑子学习笔记:对数似然距离(Log-Likelihood Distance)

本文详细介绍了对数似然距离的统计学基础,包括极大似然估计方法及其在概率分布估计中的应用。文章通过具体例子阐述了如何计算连续型和离散型随机变量的似然函数及极大似然估计,接着讨论了数据集划分对数似然值和对数似然距离的概念,为理解BIRCH层次聚类算法提供理论支持。
摘要由CSDN通过智能技术生成

转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/log-likelihood_distance.html 

    本文是“挑子”在学习对数似然距离过程中的笔记摘录,文中不乏一些个人理解,不当之处望多加指正。

    对数似然距离是基于统计理论的一种计算簇与簇相异度的方法,最早用于BIRCH层次聚类算法的改进。本文旨在详细介绍对数似然距离的统计学基础、方法思想和计算过程,希望帮助更多地人欣赏它、熟悉它、使用它。

1、极大似然估计(Maximum Likelihood Estimate)

    极大似然估计方法是求点估计的另一种方法,1821年首先由德国数学家C. F. Gauss(高斯)提出,但是这个方法通常被归功于英国的统计学家R. A. Fisher(罗纳德·费希尔),他在1922年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics (by R. A. Fisher), 1950, J. Wiley & Sons, New York 中再次提出了这个思想,并且首先探讨了这种方法的一些性质,极大似然估计这一名称也是费希尔给的。这是一种目前仍然得到广泛应用的方法[1]。本节以下内容主要参考《数理统计学教程》[2]编撰,如果对极大似然估计十分熟悉,可直接跳过本节。

    假设大小为$n$的样本$X=(X_1, X_2, ..., X_n )$有概率函数$f(x;\theta) = f(x_1, ..., x_n; \theta)$:1)当$X$是连续型的,则$f(x_1,...,x_n;\theta)$是其联合概率密度,如果$X$是简单随机样本,即$X_1,...,X_n$是独立同分布的,概率函数可以表示成连乘形式$f(x_1,...,x_n;\theta) = f(x_1;\theta) \cdot ... \cdot f(x_n;\theta) $;2)当$X$是离散型的,则有$f(x_1,...,x_n;\theta) = P(X_1 = x_1, ..., X_n = x_n ; \; \theta) $,同样地,如果$X$是简单随机样本,有连乘的形式$f(x_1,...,x_n;\theta) = P(X_1 = x_1; \theta) \cdot ...\cdot P(X_n = x_n ; \theta) $.

    定义 1:设样本$X=(X_1, X_2, ..., X_n )$有概率函数$f(x;\theta) = f(x_1, ..., x_n; \theta) $,其中参数$ \theta \in \Theta $. 当视$x$为常量,$\theta$为定义在参数空间$\Theta$上的自变量时,称函数$f(x, \theta)$为似然函数。

    例 1:设有样本$X=(X_1, X_2, ..., X_n )$,$X_1,...,X_n \sim N(\mu, \sigma^2)$相互独立。此时参数为$\theta = (\mu, \sigma^2)$,参数空间$\Theta = \{ (\mu, \sigma^2) \in \mathbb R^2 : \sigma^2 \ge 0 \} $,根据定义 1上方的分析可计算似然函数&#x

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值