2.1 二元变量

翻译 2016年05月30日 11:44:48

2.1 二元变量

1、基本概念

考虑一个二元随机变量 x ∈ {0,1} 。例如,x 可能描述了扔硬币的结果,x=1的概率被记作参数µ,因此:

p(x=1μ)=μ

p(x=0μ)=1μ

x 的概率分布因此可以写成:

Bern(xμ)=μx(1μ)1x

这被叫做伯努利分布。

我们构造如下关于 μ 的似然函数:

p(Dμ)=n=1Nμxn(1μ)1xn

可以通过最⼤化对数似然函数来估计 µ 的值:

lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}

lnp(Dμ)的导数为0,就得到了最大似然的估计值:

μML=1Nn=1Nxn

这也被称为样本均值(sample mean)。如果我们把数据集⾥x = 1(正⾯朝上)的观测的数量记作m,那么我们可以把μML写成下⾯的形式:

μML=mN

然而最大似然的局限性也在于此,假设我们掷了3次硬币,并且全部正面朝上,那么我们得到的μML就是1,最大似然预测的结果是未来所有的实验结果都是正面朝上,这显然是不合理的。事实上,这是最大似然估计法过拟合的现象,在小规模数据集上常出现。
我们也可以求解给定数据集规模N的条件下,x = 1的观测出现的数量m的概率分布。这被称为⼆项分布(binomial distribution):

Bin(mN,μ)=(Nm)μm(1μ)Nm(2.1)

其中:

(Nm)=N!(Nm)!m!

2、Beta分布

为了解决最大似然法过拟合的现象,我们x需要引入一个关于μ的先验概率分布p(μ),为了找到这个先验分布,我们注意到似然函数是某个因子与μx(1μ)1x的乘积的形式,如果我们选择⼀个正⽐于μ(1μ)的幂指数的先验概率分布,那么后验概率分布(正⽐于先验和似然函数的乘积)就会有着与先验分布相同的函数形式,这个性质被叫做共轭性(conjugacy)。因此,我们把先验分布选择为Beta分布:

Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1(2.2)

其中,

Γ(x)=0ux1eudu

可以看出Beta分布是归一化的,即:

10Beta(μa,b)dμ=1

Beta分布的均值和方差为:

E(μ)=aa+b

var(μ)=ab(a+b)2(a+b+1)

参数a和b经常被称为超参数(hyperparameter),因为它们控制了参数的概率分布,以下是不同参数的Beta分布图像:

这里写图片描述

的后验概率分布现在可以这样得到:把Beta先验与二项似然函数(2.1)相乘,然后归一化。只保留依赖于的因子,我们看到后验概率分布的形式为:

p(μm,l,a,b)μm+a+1(1μ)l+b1

其中 l=Nm,即对应于硬币“反面朝上”的样本数量。
通过与公式(2.2)对比,得到它的归⼀化系数:

p(μm,l,a,b)=Γ(m+a+l+b)Γ(l+a)Γ(l+b)μm+a1(1μ)l+b1(2.3)

如果我们的目标是尽可能好地预测下⼀次试验的输出,那么我们必须估计给定观测数据集D的情况下,x的预测分布。根据概率的加和规则和乘积规则,这个预测分布的形式为:

p(x=1D)=10p(x=1μ)p(μD)dμ=10μp(μD)dμ=E(μD)

根据公式(2.3)得到:

p(x=1D)=m+am+a+l+b

当数据集无限大时,即m,l+,结果与最大似然估计相同,当数据集有限时,结果位于先验均值和最大似然估计之间。

相关文章推荐

android二元离散变量计算器

  • 2015年01月09日 12:22
  • 5.44MB
  • 下载

线程同步:原子操作、锁、二元信号量、信号量、互斥量、临界区、读写锁、条件变量等

注:摘自《程序员的自我修养》相关章节。   原子操作 共享数据(全局变量或堆变量)的自增(++)操作在多线程环境下会出现错误是因为这个操作(一条c语句)被编译为汇编代码后不止一条指令,因此在执行...

PRML:二元变量分布

伯努利分布考虑二元随机变量 x∈{0,1}x\in \{0,1\}(抛硬币,正面为 1,反面为 0),其概率分布由参数 μ\mu 决定:p(x=1)=μ p(x=1)=\mu 其中 (0≤μ≤1)(0...

二元随机变量函数的分布

在前面的文章记录了二元随机变量的定义、离散型二元随机变量的联合分布律/联合概率密度函数、边际分布律/边际概率密度函数、条件分布律/条件概率密度 ,以及对应的 联合分布函数、边际分布函数、条件分布函数。...

机器学习----分布问题(二元,多元变量分布,Beta,Dir)

机器学习----分布问题(二元,多元变量分布,Beta,Dir)       这涉及到数学的概率问题。       二元变量分布:          伯努利分布,就是0-1分布(比如一次抛硬...

线程同步:原子操作、锁、二元信号量、信号量、互斥量、临界区、读写锁、条件变量

原子操作 共享数据(全局变量或堆变量)的自增(++)操作在多线程环境下会出现错误是因为这个操作(一条c语句)被编译为汇编代码后不止一条指令,因此在执行的时候可能执行了一半就被调度系统打断,去执行...

【Python】学习笔记——-2.1、Python的数据类型与变量

数据类型 计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值。但是,计算机能处理的远不止数值,还可以处理文本、图形、音频、视频、网页等各种各样的数据,不同的数据,需要...
  • singit
  • singit
  • 2017年02月07日 22:38
  • 287

Halcon视频学习2.1-- 图形变量

一、图形变量image 1、通道:每一个通道可以理解为一个矩阵,彼此独立,灰度图是单通道,RGB图是三通单 2、像素类型:int1, int2, uint2, int4, int8, by...
  • yqj234
  • yqj234
  • 2015年12月24日 21:32
  • 1278

C程序设计语言- 类型、运算符与表达式-2.1----变量名、数据类型及长度、常量、声明、算数运算符、关系运算符与逻辑预算符

前言:继续C系列。 1.变量名 变量名没什么好说的,简单滤过。 2.数据类型及长度 手写麻烦,直接截图了。下面我们来看一个例子:编写一个程序以确定分别由signed及unsigned限...

再读《The C Programming Language》 第二章 2.1 变量类型

第二章 类型、运算符和表达式 虽然本节分为了12个小结,但我这里是个总结性的,应该算是读书笔记吧,而且本节都是基础性的知识讲解,所以我这里准备分三个小结来写,即 2.1 变量类型 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:2.1 二元变量
举报原因:
原因补充:

(最多只允许输入30个字)