复习《概率论与数理统计》(一)

也许只复习这一次。

另外说一下,饭圈文化真恶心,我也是最近才知道这个词的。看看微博就知道了,天天就是谁谁谁又怎么了。


1.基本概念

随机现象:在个别实验中结果呈现不确定性,在大量重复实验中其结果具有统计规律性的现象。
随机实验E的特点:实验之前不能确定结果;实验所有可能结果已知;可以在相同的条件下重复地进行
样本空间S:E所有可能结果组成的集合
样本点:S中的每个元素
注:Ek第k个随机试验  Sk第k个随机实验的样本空间
(随机)事件:满足某种条件的那些样本点的集合。即随机事件是S的一个子集。
注:随机实验,随机事件以后简称实验,事件。事件发生即结果为S子集中的元素。
基本事件:该事件只有一个元素
必然事件:该事件为S
不可能事件:该事件没有任何元素

事件是一个集合。
设E的样本空间为S,事件A,B,Ak为S的子集。则:
A属于B:A发生必然导致B发生
A与B互斥(互不相容):A B不能同时发生
A与B对立(互为逆事件):A B不能同时发生,并且A∪B = S
当A发生、B不发生时,差事件A-B发生
当A B都发生时,积事件AB发生
当A B至少有一个发生时,和事件A∪B发生
定律:交换律、结合律、分配律、德摩根律(反演律)

频数nA:n次相同条件的试验下,事件A发生的次数
频率:fn(A) = nA/n
频率性质:
fn(S) = 1
0 <= fn(A) <= 1
实验次数趋于无穷,fn(A)趋于P(A)  (频率学派)

加法公式  A1,A2,...,An两两互斥  则 P(A1∪A2∪...∪An) = P(A1)+P(A2)+...+P(An)

古典概型/等可能概型:样本空间S的元素为有限个;每个元素发生的可能性相同。

条件概率P(B|A):在事件A发生的条件下,事件B发生的概率
注2:如果A B不属于同一个S,那么P(B|A) = P(B)    我自己的感想都标为注2
公式:
P(B|A) = P(AB)/P(A)
P(B1∪B2 | A) = P(B1|A) + P(B2|A) - P(B1B2|A)
乘法公式 P(AB) = P(B|A)P(A) 
乘法公式推广 P(A1A2...An) = P(An|A1A2...An-1)*P(An-1|A1A2...An-2)*P(An-2|A1A2...An-3)*...*P(A2|A1)*P(A1)

设B1,B2,...,Bn属于E的S,且i不等于j时 BiBj=Ø  ;B1∪B2∪B3∪...∪Bn = S
上面的假设,简称为B1 B2 ... Bn 为S的一个划分
注:以后不提该假设,直接说是一个划分
注2:即Bi与Bj不能同时发生
全概率公式 P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)
Bayes公式 P(Bi | A) = P(A|Bi)*P(Bi)/P(A) = P(A|Bi)*P(Bi)/[P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)]

B1 B2为S的一个划分
全概率公式 P(A) = P(A|B1)P(B1) + P(A|B2)P(B2)
Bayes公式 P(Bi | A) = P(A|Bi)*P(Bi)/[P(A|B1)P(B1) + P(A|B2)P(B2)]

事件独立:A,B属于同一个S。A的发生对B的发生无影响,那么P(B|A)=P(B);而且P(AB) = P(A)P(B)

 

2.随机变量及其分布

S1是{1,2,3},S2是{阴天,晴天,雨天},还有的Sn是{正面,反面}
为了将S的每个元素e与实数x对应起来,从而引入了随机变量X
注:大写字母表示随机变量,小写字母表示实数

将硬币仍三次,出现正反面的情况。正反面head tail


函数X的定义域为S,值域为{0,1,2,3}


袋中放编号为1 2 3的球,任取一个,放回去,再任取一个

函数X的定义域为S,值域为{2,3,4,5,6}

 

离散型随机变量X,值域为{x1,x2,...,xn},或者说 所有的取值为xk (k=1,2,...)
离散型随机变量X的分布律:

0-1分布
二项分布
泊松分布
泊松定理:用泊松分布逼近二项分布

一般对随机变量的值落在哪个区间的概率比较感兴趣
元减寿命T   P{T=200}=0.2  P{10<T<=200}=0.5 对后者比较感兴趣
X的分布函数

因此X落在任一区间上的概率可由分布函数求出。

列举两个分布函数

连续型随机变量X,其F(x)为连续的,所以存在f(x)积分为F(x)
f(x)称为X的概率密度函数
注:f(x)简称概率密度

注: 

均匀分布
指数分布
正态分布

分布律、概率密度、分布函数

随机变量的函数 Y=g(X),Y也是一个随机变量
 

3.多维随机变量及其分布

之前的S只用一个X描述。现在S要用 X Y描述。甚至用更多随机变量描述。
调查某学校某年级的学生的发育情况,每个元素为(身高,体重)
S = {(1.5,50),(1.7,60),(1.5,40),...,(1.3,50)}

二维随机变量(X,Y)的分布函数
注:或称X Y的联合分布函数



二维离散型随机变量(X,Y)的分布律
注:或称X Y的联合分布律

二维连续型随机变量(X,Y)的概率密度 f(x,y)
注:或称X Y的联合概率密度

二维随机变量(X,Y)的边缘分布函数 FX(x)  FY(y)分别是X与Y的分布函数
FX(x)  FY(y)可由F(x,y)确定
同理也有 边缘概率密度 边缘分布律

条件分布律、条件概率密度

二维随机变量的两个变量相互独立 F(x,y) = FX(x)FY(y)

两个随机变量的函数的分布 
Z = X+Y
Z = Y/X
Z = XY
Z = max{X, Y}
Z = min{X, Y}

卷积公式
(X,Y)为二维连续型随机变量,Z=X+Y仍为连续型随机变量

当X Y相互独立时,有卷积公式

注:至此我们学习了 二维随机变量
分布律、概率密度、分布函数
边缘分布律、边缘概率密度、边缘分布函数
条件分布律、条件概率密度、条件分布函数

4.随机变量的数字特征

分布函数、分布律、概率密度都能描述一个随机变量。
有时想要用随机变量某一种特征的常数来描述随机变量。
如平均身高,身高的偏离程度

数字特征:能刻画随机变量某一方面的特征的常数。包括数学期望,方差,相关系数,矩等。
数学期望/期望/均值 E(X)
随机变量函数的均值 E(g(X))
性质:
E(X+Y) = E(X)+E(Y)
E(CX) = CE(X)   C为常数
E(C) = C
E(XY) = E(X)E(Y)    X Y相互独立

E{|X-E(X)|} 来度量X与均值的偏离程度
为了运算方便,用平方代替绝对值 E{[X-E(X)]**2} 这便是方差D(X)=Var(X)
标准差:σ(X) = sqrt(D(X))
D(X) = E(X**2) - [E(X)]**2

标准化变量 X* = [X-E(X)]/σ(X)

还需要记住几种特殊分布的均值与方差

协方差Cov(X,Y) = E{[X-E(X)][Y-E(Y)]}
如果协方差为0 则X与Y相互独立
相关系数 ρXY = Cov(X,Y)/[σ(X)σ(Y)]

k阶原点矩
k阶中心距
协方差矩阵

6.数理统计

数理统计以概率论为基础
概率论中随机变量的分布函数都是假设已知的
数理统计中随机变量的分布函数都是未知的(或者分布函数已知,但参数未知),通过分析数据,推断出随机变量的分布

总体:随机实验的全部可能的观察值
个体:总体的元素
总体就是随机变量
样本:总体中的部分个体。通过研究样本来对随机变量的分布函数进行推断。
研究学校某年级的学生身高,不会测量所有学生,而是去每个班随机抽取学生,即用部分学生来研究

总体X
样本X1 X2 ... Xn  对应的样本值x1 x2 ... xn
g(X1,X2,..,Xn)称为统计量

样本平均值
样本方差
样本标准差
样本k阶原点矩
样本k阶中心矩
所以这些都是统计量

统计量的分布:
卡方分布
t分布
F分布

7.参数估计

X的分布函数已知,但参数未知。通过样本来估计参数。
F(x;θ)为X的分布函数,θ为未知参数
点估计:矩估计,最大似然估计等。
区间估计

点估计:由总体X的一个样本来估计总体未知参数的值
下面是矩估计的步骤:


概率与似然?
概率:分布函数的参数已知,来估计事件结果
似然:事件结果已知,来估计分布函数的参数
http://blog.sina.com.cn/s/blog_e8ef033d0101oa4k.html

似然函数 L(θ)
最大似然函数:使得似然函数取max的参数为最可能的参数

思考

概率为0,那么该事件不会发生吗?
书上说,连续型随机变量取任一实数值,概率为0
连续型随机变量用概率密度函数描述,密度函数与坐标轴所围成的面积即概率,密度函数的一段曲线与坐标轴可以围成面积,但一点就与坐标轴围不成面积
其实书上还是取了极限,极限在生活中是不存在的,只是书上提一下而已。就好比那个加百利小号,也是书上提一下,但现实中根本无法制造出这样的小号(永远处于制造中)。
百度一下的答案:零测度集!=空集 

P{X=a}  随机变量X为某一实数值a时的概率
P(A) 随机事件A发生的概率

频率学派与贝叶斯学派,还有个逻辑派?没搞懂。


=======================================================

《神经网络与深度学习》

---------------------------------------------------------------------------------------------
训练集 D         后一种方式表示从1到N,与前一种相同
测试集 D'
函数集合/假设空间 F 
假设空间为一个参数化的函数族,θ为参数,d为参数的数量
最优函数属于该假设空间
学习算法 A
-----------------------------------------------------------------------------------------------
样本x,最优函数f*(x),预测的标签值为    ,其实我觉得这里x应该称之为样本值

样本x,最优的条件概率函数f*y(x),预测的标签条件概率为,书上的表示应该是
准确率,|D'|是测试集的大小,I为指示函数

-----------------------------------------------------------------------------------------------
线性模型    θ包含w与b    x=[x1 x2 x3... xk]
非线性模型   Φ(x) = [Φ1(x) Φ2(x) Φ3(x)... Φk(x)]
Φ(x)的任意一个元素为   
当Φ'(x)为另一组基函数,h为非线性函数,则该非线性模型为神经网络
-----------------------------------------------------------------------------------------------
假设D中的样本是根据某一未知的分布函数独立地随机产生的
如果本身可变的话,那就不用学习了,即使学习出f*(x) 那也只是当前训练集的最优函数,不能代表联合样本空间。

好的映射函数模型
真实的映射函数  
好的条件概率函数模型
真实的条件概率分布

一致性
表示最优模型与真实值非常接近。

期望风险,L为损失函数,模型f(x;θ)与真实值y的损失函数。
在样本服从于某一分布函数时,损失函数的期望。

0-1损失函数

如果真实值与模型值不等,损失函数为1,反之为0
I是指示函数
 

平方损失函数

用于预测标签y为实数值的任务中,不适用于分类


交叉熵损失函数
  在输入为x的概率下,输出为c的概率
交叉熵 = - Σ真实值*log(条件概率)
注:这里的求和上下标是因为假设真实标签为
用于分类
举例:
  模型估计标签的第一个元素为0的概率为0.3,同理后面几个元素为0 1的概率为0.3 0.4
交叉熵L=-(0xlog(0.3)+0xlog(0.3)+1xlog(0.4))


Hinge损失函数
--------------------------------------------------------------------------------------------
模型的输出标签与训练样本的标签相同的概率分布

经验风险

argmax(f(x)):函数f(x)取最大值时的自变量。同理,argmin
经验风险最小时的参数为θ*
结构风险最小时的参数为θ*  
结构风险最小化=经验风险最小化+正则化项,θ的二范数,λ来控制正则化强度

--------------------------------------------------------------------------------------------
梯度下降法
使得θt+1与θt 不断接近,即经验风险到达极值
α 学习率

防止过拟合的方法:加正则化项;提前停止训练(如果在验证集上的错误率不再下降,就停止迭代)
注:训练集,验证集/开发集,测试集

随机梯度下降法

小批量梯度下降法

三者区别:每次迭代计算使用的样本数量,训练集为N个样本,区别分别如下:
N个样本
N个样本中的随机一个样本
N个样本中的随机一些样本
------------------------------------------------------------------------------------
线性回归

自变量数量为1 简单回归,超过1个 多元回归

介绍四种方法,这四种方法都可得出参数w。所以称之为参数估计方法
1.经验风险最小化
这里用的是平方损失函数,期望风险也没有除以训练集个数
则得出最优的w
因为使用的是取极值+平方损失函数,也称最小二乘法
 

得出最优的w
使用了梯度下降法+平方损失函数,也称最小均方法

难点:对矩阵、向量求导,在振动力学 有限元中我就碰到这个了。

2.结构分析最小化
最小二乘法得出的参数为
为了防止 X数据集出现一点扰动 就会使求逆发生很大改变,提出了岭回归

岭回归也可以看作 取极值后的结果
这也是最小二乘法

3.最大似然估计
机器学习两种任务: x与y之间存在未知函数关系;条件概率p(y|x)服从某个未知分布。
第一种用最小二乘法
第二种用参数估计

假设p(y|x)服从于正态分布



对似然函数取极值,得

4.最大后验估计
 

补充:
回归分析:建立自变量与因变量之间关系的模型
回归分析种类:线性回归、非线性回归、自回归、偏回归等
逻辑回归属于非线性回归
最小二乘法是线性回归最常用的方法
-------------------------------------------------------------------------------------
偏差—方差分解

模型f(x)的期望错误R(f)

最优模型f*(x)的期望错误ε

R(f) = E[(y-f*(x))**2] + E[(f*(x)-f(x))**2] + 2*E[(y-f*(x))(f*(x)-f(x))]
= E[(f*(x)-f(x))**2] + ε               2*E[(y-f*(x))(f*(x)-f(x))]=0 这一项如何得出?

训练集D得到的模型fD(x)

    这又怎么得出?


这怎么得出?

样本越多,方差越来越小
模型越复杂,偏差越来越小
-------------------------------------------------------------------------------------

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值