统计自然语言处理基础-第二章数学基础（笔记）

hardworking-AI

已于 2022-10-01 14:19:55 修改

阅读量172

点赞数 1

文章标签：自然语言处理概率论机器学习 nlp

于 2022-10-01 14:16:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44900754/article/details/127133439

版权

第二章数学基础

统计学、信息论

2.1 概率论基础

2.1.1 概率空间

概率论是预测事件发生的可能性大小的理论。

随机实验：其结果事先不能完全确定的实验

样本空间 = 基本事件空间：一个样本点或者基本事件的集合（连续或者离散）/ 所有可能实验结果的集合，空集是不可能事件的集合

自然语言处理中的具体问题，主要是离散样本空间，包含有限的样本

概率

2.1.2 条件概率和独立性

不考虑已知知识对概率值的影响，原有的概率值称为事件的先验概率，而加入某个知识后，原有的概率值将发生改变，称为事件的后验概率。
在这里插入图片描述

2.1.3 贝叶斯定理

计算概率时可以交换事件的次序。
在这里插入图片描述

2.1.4 随机变量

在这里插入图片描述

2.1.5 期望值和方差

在这里插入图片描述

2.1.6 符号表示

在这里插入图片描述

2.1.7 联合分布和条件分布

在这里插入图片描述

2.1.8 概率函数P的估计

在这里插入图片描述

2.1.9 标准分布

在这里插入图片描述

2.1.10 贝叶斯统计

在这里插入图片描述

贝叶斯更新

在这里插入图片描述

通过已知条件的不断变化和更新，来实时的改变某一事件的概率

通常一个人来商场购物的可能性是0.2，而来随便逛逛的是0.8，此时这个人是购物的概率是0.2；又已知来购物的人中有0.9的人询问，0.1的不问，随便逛逛的0.3会来询问，0.7不问，那么询问并且购物的概率是0.18，询问并且不购物的可能性是0.24，不询问并且购物0.02，不询问并且不购物0.56，那么又已知这个人来询问了，则此人购物的可能性是0.18/（0.18+0.24）=3/7，这就是贝叶斯更新。

贝叶斯决策定理

判断哪个模型能够更好地适应数据，解释数据

已知男生23+的占100，女生23+的占50，男生有600人，女生400人

P（男）=0.6，P（女）=0.4，P（23+|女）=P（23-|女）=0.5

正向概率：随机选择一个学生，在23+的概率是多少？200/1000 = 0.2

P（23+）=P（23+|男）*P（男）+P（23+|女）*P（女）=1 * 0.6 + 0.5 * 0.4 = 0.8

逆向概率：这个人23+，判断是是女的概率是多少？200/800 = 0.25

P（女|23+）=P（女且23+）/P（23+）=P（23+|女）*P（女）/P（23+）=0.5 * 0.4 / 0.8 = 0.25
在这里插入图片描述

2.2 信息论基础

在香农之前,人们普遍认为传输速率和错误率成正比,速度越高,错误越多。但是香农证明只要数据传输速率低于信道容量C,即可获得我们期望的任意错误率。
在这里插入图片描述

2.2.1 熵

在这里插入图片描述

2.2.2 联合熵和条件熵

在这里插入图片描述

2.2.3 互信息

在这里插入图片描述

2.2.4 噪声信道模型

在这里插入图片描述

在这里插入图片描述

2.2.5 相对熵和Kullback-Leibler距离

在这里插入图片描述

2.2.6 交叉熵

熵可以用于衡量事件不确定性的大小，事件所透露出来的信息越多，其熵值会越小。熵的大小可以作为评估语言模型好坏的一个标准。

熵：对某个事件发生所持的“惊奇”程度，“惊奇”程度越大说明该事件的发生越出乎意料
在这里插入图片描述

2.2.7 英语的熵

在这里插入图片描述

2.2.8 混乱度

在语音识别领域中，人们通常用混乱度而不是交叉熵来描述一个模型的好坏，
在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。