统计自然语言处理基础-第二章 数学基础(笔记)

第二章 数学基础

统计学、信息论

2.1 概率论基础

2.1.1 概率空间

概率论是预测事件发生的可能性大小的理论。

随机实验:其结果事先不能完全确定的实验

样本空间 = 基本事件空间:一个样本点或者基本事件的集合(连续或者离散)/ 所有可能实验结果的集合,空集是不可能事件的集合

自然语言处理中的具体问题,主要是离散样本空间,包含有限的样本

概率

2.1.2 条件概率和独立性

不考虑已知知识对概率值的影响,原有的概率值称为事件的先验概率,而加入某个知识后,原有的概率值将发生改变,称为事件的后验概率。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.3 贝叶斯定理

计算概率时可以交换事件的次序。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

2.1.4 随机变量

在这里插入图片描述
在这里插入图片描述

2.1.5 期望值和方差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.6 符号表示

在这里插入图片描述

2.1.7 联合分布和条件分布

在这里插入图片描述
在这里插入图片描述

2.1.8 概率函数P的估计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.9 标准分布

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1.10 贝叶斯统计

在这里插入图片描述

贝叶斯更新

在这里插入图片描述
在这里插入图片描述

通过已知条件的不断变化和更新,来实时的改变某一事件的概率

通常一个人来商场购物的可能性是0.2,而来随便逛逛的是0.8,此时这个人是购物的概率是0.2;又已知来购物的人中有0.9的人询问,0.1的 不问,随便逛逛的0.3会来询问,0.7不问,那么询问并且购物的概率是0.18,询问并且不购物的可能性是0.24,不询问并且购物0.02,不询问并且不购物0.56,那么又已知这个人来询问了,则此人购物的可能性是0.18/(0.18+0.24)=3/7,这就是贝叶斯更新。

贝叶斯决策定理

判断哪个模型能够更好地适应数据,解释数据

已知男生23+的占100,女生23+的占50,男生有600人,女生400人

P(男)=0.6,P(女)=0.4,P(23+|女)=P(23-|女)=0.5

正向概率:随机选择一个学生,在23+的概率是多少?200/1000 = 0.2

P(23+)=P(23+|男)*P(男)+P(23+|女)*P(女)=1 * 0.6 + 0.5 * 0.4 = 0.8

逆向概率:这个人23+,判断是是女的概率是多少?200/800 = 0.25

P(女|23+)=P(女且23+)/P(23+)=P(23+|女)*P(女)/P(23+)=0.5 * 0.4 / 0.8 = 0.25
在这里插入图片描述

2.2 信息论基础

在香农之前,人们普遍认为传输速率和错误率成正比,速度越高,错误越多。但是香农证明只要数据传输速率低于信道容量C,即可获得我们期望的任意错误率。
在这里插入图片描述

2.2.1 熵

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.2 联合熵和条件熵

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.3 互信息

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.4 噪声信道模型

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.5 相对熵和Kullback-Leibler距离

在这里插入图片描述
在这里插入图片描述

2.2.6 交叉熵

熵可以用于衡量事件不确定性的大小,事件所透露出来的信息越多,其熵值会越小。熵的大小可以作为评估语言模型好坏的一个标准。

熵:对某个事件发生所持的“惊奇”程度,“惊奇”程度越大说明该事件的发生越出乎意料
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.7 英语的熵

在这里插入图片描述
在这里插入图片描述

2.2.8 混乱度

在语音识别领域中,人们通常用混乱度而不是交叉熵来描述一个模型的好坏,
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值