NLP中一些数学知识

1.所谓概率函数就是要在整个样本空间分配概率值,概率值总和为1

2.一个完备的概率空间应该由样本空间,概率函数和事件域这三部分组成,在统计自然语言处理中,我们的目标就是为建立的模型定义一个符合上述条件的概率空间。

3.随机变量有一个取值的范围,因此我们避免了直接和事件本身打交道,而是处理代表它们的随机变量的值,为了更清楚的描述随机变量的特性,我们引入概率密度函数的概念,它表示随机变量取不同值的概率。

4.期望值是一个随机变量的各个取值的平均值。一个随机变量的方差描述该随机变量的值偏离其期望值的程度。在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。 假设一个质地均匀的骰子,即每一面出现的概率都为1/6,则它的期望值为21/6,这个期望值表示多次掷骰子实验得到的总点数和除以实验的次数。(相当于均值)

 

5.我们用联合概率分布来描述样本空间中多个随机变量的分布,设两个离散型随机变量X和Y,他们的联合密度函数可写为

条件概率密度公式

6.离散分布函数:二项分布 当重复一个只有两种输出(假设0和1)的实验,并且各次实验之间相互独立时,我们就说实验的结果服从二项分布。二项分布在统计自然语言处理中应用的很广泛,例如估计英文文本中含有单词the的句子所占的百分比。

7.连续分布函数:二项分布

当重复一个只有两种输出(假设0和1)的实验,并且各次实验之间相互独立时,我们就说实验的结果服从二项分布。二项分布在统计自然语言处理中应用的很广泛,例如估计英文文本中含有单词the的句子所占的百分比。

 

8.极大似然估计 仍以抛硬币为例,假设我们重复10次,其中8次结果是正面朝上的,从一个频度论者的角度来看,他会认为10次实验中8次正面朝上是一种极大似然估计。

9.熵表示单个随机变量的不确定性的均值,随机变量的熵越大,它的不确定性越大,也就是说能正确估计其值的概率越小。熵值度量了随机变量所包含的信息量的大小。熵可以用于衡量事件不确定的大小,事件所透漏出来的信息越多,其熵值会越小。

10.词干提取不注意词法会丢失一些信息

11.应该用什么特征来指导设计标注集呢?通常,一个标注集同时依据分类目标特征和预测特征来进行编码,分类目标特征告诉用户关于一个词的语法类别的有用信息,预测特征是对预测上下文中其它词语特性有用的特征,他们通常是相互交叉的,但是没有必要等同看待。

12.联合分布函数(联合概率分布)

联合分布函数(joint distribution function)亦称多维分布函数。以二维情形为例,设(XY)是二维随机变量,xy是任意实数,二元函数:F(x,y)=P({XxYy})=P(Xx,Yy),被称二维随机变量(XY)的分布函数,或称为XY的联合分布函数。

在许多生产实际与理论研究中,一个随机现象常常需要同时用几个随机变量去描述,所以要使用联合密度函数。

13、联合概率分布和概率分布

多维随机变量的分布才被称为联合概率分布,普通的一维随机变量其分布一般称为概率分布。所以,只是多维和一维情形下不同的叫法而已。

14.边缘分布函数

如果二维随机变量X,Y分布函数F{x,y}为已知,那么随机变量xy的分布函数F{x}Fʏ{y}可由F{x,y}求得。则F{x}Fʏ{y}为分布函数F{x,y}的边缘分布函数

转载于:https://www.cnblogs.com/dyl222/p/11005586.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值