概率论与信息论基础
1、比较“频率论概率”和“贝叶斯概率”?
频率学派对概率的定义包含两个要点:
(1):事件A发生的概率是一个常数,也就是说频率学派认为事件发生的概率是一个确定的数,可以直接求出来。
(2):事件A发生的概率是通过重复多次进行同一实验得到的。当重复实验的次数趋于无穷,事件的频率趋于事件A发生的概率。
贝叶斯学派对概率的定义包括以下三个要点:
(1):事件A发生的概率是变化的,并非常数,也就是说事件发生的概率具有不确定性。
(2):事件A发生的概率是在特定条件下的条件概率。
(3):事件A发生的概率是一个后验概率,且事件发生的先验概率已知。
频率学派认为:概率及其模型(参数)是真实确定存在的,而事件本身是随机的;因此,可以通过最大似然估计参数的值。比如,在随机试验过程中,我们把某事件发生的比例或频率作为该事件发生的概率。
贝叶斯学派则持完全不同的观点,他们认为:真实出现的事件是一种确定性的存在,而模型及其参数反而是不确定的随机变量。在分析过程中,总是先假设一个先验的概率分布,随着样本的增加,不断的修正先验的概率分布。
2、什么是随机变量?
随机变量X是定义在样本空间的S上的实值单值函数。也就是说它是随机试验结果的函数。
它的取值随试验的结果而定,是不能预先确定的,它的取值具有一定的概率。
作用是:随机变量的引入,使概率论的研究由个别随机事件扩大为随机变量所表征的随机现象的研究。
3、什么是概率分布?
概率分布就是描述随机变量落在某个区间的概率,描述了随机变量的统计规律性。
4、概率质量函数和概率密度函数?
它们本质是相同的,只是表现的形式不同,
描述离散型数据的概率分布的叫概率质量函数;描述连续型数据叫做概率密度函数。
概率质量(mass)函数:各个分类的概率。
概率密度(density)函数:数据落在某一段连续的区间的概率。
然后为何一个叫做质量,一个叫做密度。主要是他们从英文翻译过来的。所以得从英文解释。
概率质量函数:
mass强调的是一个聚集在一起的物体,就是它一个块一块的。这和离散型数据很像,就是一堆数据属于某个类。他们是聚集一块一块的。所以用mass这个词来描述他们的概率。翻译成中文就变成了概率质量函数。你可以这么记忆:离散型数据是块状物体,物体是有质量,所以叫做概率质量函数。
概率密度函数(Probability Density Function)
这个是描述连续性数据。就是落在某个区间内的概率多大。这个就像液体,液体是连续的。同等体积有些液体重有些液体轻,用密度这个词描述会更合适。它的缩写很意思,叫做PDF,哈哈哈。
5、函数成为概率密度函数的条件
非负,积分和为1
6、条件概率的链式法则
根据条件概率的定义:p(A,B) = p(A|B)p(B)
推广到一般情况下就是条件概率的链式法则:
p(X1,X2,…,Xn) = p(X1|X2,…,Xn)*p(X2|X3,…,Xn)…p(Xn-1|Xn)p(Xn)
7、两个随机变量的独立性和条件独立性?
独立性:P(A,B) = P(A)P(B) 也就是说两个随机试验发生的结果相互没有干扰。
条件独立性:P(A,B|C) = P(A|C)P(B|C)
8、大数定律
极限定理是概率论的基本理论,大数定律和中心极限定理是其中最重要的两个定理。
大数定律;叙述的是随机变量序列的前一些项的算数平均值在某种条件下收敛到这些项的均值的算数平均值。
通俗的说,辛钦大数定律是说,独立同分布且具有均值u的随机变量X1,…,Xn,当n很大的时候,他们的算数平均有很大可能接近u。
伯努利大数定律表明,当独立重复实验的次数趋于无穷的时候,事件A发生的频率接近于事件A发生的概率。这也是频率具有稳定的真正含义,也是为什么实际应用过程中,当实验次数很大,便可以用事件的频率代替事件的概率的理由。
9、中心极限定理
中心极限定理叙述的是,在什么条件下,大量随机变量和的分布逼近于正态分布。
客观背景:在客观实际中许多随机变量,它们是由大量的相互独立的随机因素的综合影响所形成的,而其中每一个因素在总的影响中所起到的作用是微小的,这种随机变量往往近似服从正态分布。
这里规定,随机变量之间的独立同分布的,实际上,李雅普诺夫定理表明,不是同分布,无论随机变量服从什么分布,在某种条件下,他们和的分布也逼近于正态分布。
10、介绍假设检验?以及它的应用
假设检验和参数估计是统计推断中两类重要问题。假设检验是在总体的分布函数完全未知或者只知其形式,参数未知的情况下。为了推断总体的某些特征,根据经验或者样本的提出一些关于总体的假设,再根据样本对所提出假设做出接受或者是拒绝的决策过程。
其中蕴含了两个重要的思想,小概率事件原理和反证法。
应用:质量检测,产品检测等,一般情况下,就是我们需要对某个对象的总体的一些特征做出一些判断,而我们又无法得到总体全部的数据或者得到总体全部的数据代价很大的时候,那么我们就可以根据实际问题或者以往的经验对总体做出一些假设,在通过抽样得到总体的部分样本去检验我们的假设是否正确。
11、卡方检验
说到卡方检验,就必须先说说抽样分布的三大分布之一的卡方分布,
性质:
**卡方检验是在零假设近似成立时,检验统计量的分布服从卡方分布的假设检验。在在没有其他的限定条件或说明时,卡方检验一般指代的是皮尔森卡方检验。
卡方检验可以用来检验单个正态总体均值未知,方差是否等于某个值。
皮尔逊卡方检验
皮尔逊卡方检验经常用来根据样本数据推断总体分布与期望分布是否有显著差异,或推断分类变量间是否相互关联或彼此独立
变量独立性检验步骤,一般是通过列联表来求解。
12、皮尔逊相关系数和卡方检验的区别
皮尔逊相关系数:定义了两个随机变量的协方差与标准差的商
相关系数在0到1之间,相关系数越大,两者相关性越大
卡方检验是统计实际观察值和理论推断值之间的偏离程度,卡方值越大,两者的偏离程度越大。
13、t检验
零假设成立时,检验统计量服从t分布的假设检验。
t分布
t检验常用来检验正态总体方差未知,检验总体的均值。
在多元线性回归中t检验用来检验各个回归系数的显著性。
14、F检验
零假设成立时,检验统计量服从F分布的假设检验
F分布
两个正态总体均值未知,检验两者方差之间的关系,用到F检验。
在多元线性回归中,F检验通常用来检验整个回归关系的显著性
15、P值的含义?
p值就是在原假设可拒绝的最小显著性水平,当我们根据样本观察值计算出p值,如果它比我们预先设定的显著性水平小,那么说明观察值落入拒绝域内,若比显著性水平大,那么样本观察值落在拒绝域外,接受原假设。
说白了就是P值就是当原假设为真时,根据样本观察结果计算的检验统计量落入拒绝域的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。