大数据与AI人工智能数学基础之概率论与数理统计应用

内容提要

概率与条件概率

贝叶斯理论

信息论基础

前 言

大数据与AI人工智能技术都要以数学为基础的学科, 无论是其算法原理还是计算求解, 都是建立在数学知识的基础上, 例如: 微积分、线性代数、概率统计、最优化等。

概率论与数理统计(简称概率统计)与生活实践和科学试验有着紧密的联系,是许多新发展的前沿学科(如控制论、信息论、可靠性理论、人工智能等)的基础,因此学好这一学科是十分重要的。

一、概率与条件概率

在概率论中, 概率和条件概率均为重要概念。概率可以用于描述事件的可能性大小, 而条件概率则是指在己知某个事件发生的条件下,其他事件发生的可能性大小。

1、概率

概率是一个介于0和1之间的数,用来表示一个事件发生的可能性大小。给定一个事件E它的概率用P(E) 表示, 其中0表示不可能发生,1表示必然发生。

我们要掌握四个常用概率运算性质:加法公式、逆事件公式、减法公式、广义加法公式。

例1:设有50件产品,其中有3 件不合格品,从中任取4 件,求至少有一件不合格品的概率。

解法一:设A表示至少有一件不合格品,Ai 表示恰好有i件不合格品,则:

解法二:因为"A补"表示全是合格品,则

计算事件A的概率不容易,而计算其对立事件的概率较易时,可以利用性质

求解。

例2:某班级有 k (k≤365)个人

解:求k个人的生日均不相同的概率。

解:求“至少有两人同生日”的概率

例3:对某高校学生移动支付使用情况进行调查,使用支付宝的用户占45%,使用微信支付的用户占35%,同时使用两种移动支付的占10%,求至少使用一种移动支付的概率和只使用一种移动支付的概率。

解:记“使用支付宝”为事件A,“使用微信支付”为事件B,则“至少使用一种移动支付”可以示为A∪B,而“只使用一种移动支付”可表示为

且易知

至少使用一种移动支付的概率:

只使用一种移动支付的概率:

2、条件概率

世界万物都是互相联系、互相影响的,随机事件也不例外。在同一个试验中的不同事件之间,通常会存在着一定程度的相互影响。

例如,在天气状况恶劣的情况下交通事故发生的可能性明显比天气状况优良情况下要大得多。在解决许多概率问题时,往往需要在某些附加条件下求事件的概率。

如在事件A发生的条件下求事件B发生的概率,将此概率记作P(B|A),即:P(B|A)=P(AB)/P(A) ,也可表示为

如在事件B发生的条件下求事件A发生的概率,将此概率记作P(A|B),即:P(A|B)=P(AB)/P(B) ,也可表示为

二、全概率公式与贝叶斯理论

1、全概率公式

某一事件B的发生有各种可能的原因(i=1,2,…,n),如果B是由原因Ai所引起,则B发生的概率是:

每一原因都可能导致B发生,故B发生的概率是各原因引起B发生概率的总和,即全概率公式。

例:已知某地区加油站的客户中,40%使用92号汽油,35%使用95号汽油,25%使用98号汽油. 加油时,使用92号汽油的客户中有30%要加满油箱,使用95号汽油的客户中,有60%要加满油箱,而使用98号汽油的客户中,有50%要加满油箱. 现随机选择一位客户,求该客户加满油箱的概率。

解:设A表示"加满油箱",B1,B2,B3分别表示“客户使用的是92 号汽油"、"客户使用的是95 号汽油"、"客户使用的是98 号汽油"。由题意可知,

由全概率公式,该客户加满油箱的概率为,

2、贝叶斯公式

设A1,A2,…,An是完备事件组,则对任一事件B,有公式:

该公式于1763年由贝叶斯(Bayes)给出,称为贝叶斯公式。它是在观察到事件B已发生的条件下,寻找导致B发生的每个原因的概率。

贝叶斯公式在实际中有很多应用,它可以帮助人们确定某结果发生的最可能原因。

它是由以往的经验得到的,是事件B的原因。

在B已经发生的前提下,再对导致 B 发生的原因的可能性大小重新加以修正。

例1:某机器由A、B、C三类元件构成,其所占比例分别为0.1,0.4,0.5,且其发生故障的概率分别为0.7,0.1,0.2。现机器发生了故障,问应从哪类元件开始检查?

解:设D表示“机器发生故障”,A表示“元件是A类”,B表示“元件是B类”,C表示“元件是C类”,由全概率公式:

由贝叶斯公式:

同理

故应从C元件开始检查。

例2:设有甲乙两袋,甲袋中装有N个白球,M个黑球;乙袋中装有n个白球,m个黑球,今从甲袋中任取一个球放入乙袋中,再从乙袋中任取一个球,问取到白球的概率是多少?

解:A-甲中取白, B-乙中取白

全概率公式:

三、信息论基础

信息论是一冂研究信息的传输与处理的科学。它的基础理论主要有以下几个方面。

1、信息的定义

在信息论中, 信息被定义为能够消除不确定性的东西。当我们获得一条消急时, 我们之前关于该消息的不确定性会被消除或减少。信息的量可以通过其发生的概率来表示,概率越小,信息越大。

2、熵

熵表示的是一个不确定性的量。在信息论中,熵被用来衡量一个随机变量的不确定性, 即随机变量的平均信息量。熵越大,表示随机变量的不确定性越高。

3、信息的传输和编码

信息在传输过程中需要进行编码和解码。编码是将消息转转为一种合适的信号形式,使其能够通过传输渠道传输。解码则是将接收到的信号转换回原始消息。

4、信道容量

信道容量是指一个信道能够传输的最大信息量。它与信道的带宽、噪声水平等因素相关。信道容量的计篡可以涌过香浓定理来进行。

5、信息压缩

信息压缩是指将信息表示为更为紧凑的形式, 以减少存储或传输空间的使用。信息压缩的目标是在保持信息内容的同时,尽可能减少其表示所需的比特数。

信息论还有其他一些重要的概念和理论, 如互信息、信道编码定理等,这些都是信息论的基础。信息论的研究不仅在信息科学领域有主要应用,还在信息、计算机科学、统计学等领域发挥着重要作用。

更多精彩内容请关注本站!!!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值