机器学习概率论与数理统计

机器学习需要一些概率论和数理统计的知识做铺垫,但也不是太硬性有一些了解即可,数理统计部分最重要。
另外很多数学符号没发打字,我这篇文章处于待定状态,找个空再完善。
一.概率论
【事件的概率】
1.无放回类题目:
例如:
盒子中有4红3白7个球,无放回的取四个球,求取的球为2红2白的概率。

p=(C2|4 * C2|3)/ C4|7
注意:
Cn|m=m!/(n!(m-n)!)
C2|3=3!/(2!*1!)
0!=1

2.有放回类题目:
盒子中有5红6白11个球,又放回的摸5次,求摸出2红3白的概率?

p= C2|5 * 5\11^2 * 6\11^3

3.需要画图的题目:
已知0<x<1,0.5<y<1.5,求x<y概率

已知0<x<1,0<y<1,求x2+y2<1概率

4.条件概率:
p(b|a)=p(ab)p(a)
某地区今年发洪水概率是80%,今明两年至少有一年发生洪水的概率是85%,假如今年没发,那么明年发洪水的概率是多少?

今年发洪水=a
明年发洪水=b
p(!a|b)=p(!a*b)/p(!a)=5%/20%
5.全概率公式
一个事件发生的总概率是所有情况下发生此事件概率的和
6.贝叶斯公式
a,b事件都能触发w事件,根据a发生概率,a触发w概率,w发生总的概率,反推w事件发生时,触发对象是a的概率
p(a|w)=p(a)p(w|a)/p(w)
w是a触发的概率等于a触发w概率比w发生概率
例如:某高速公路上有20%普通客车和80%高速客车,普通客车故障几率是0.01,高速客车故障机率是0.002,问故障发生时
是高速客车的几率?
a=一辆客车是高速客车
w=故障发生
p(a|w)=(p(a)*p(w|a))/p(w)
其中 p(w)=p(a)p(w|a)+p(b)p(w|b) ----》全概率公式
【一维随机变量】
连续随机变量的概率:我们一般用累计概率描述区间概率,也就是取值落在某个区间的概率,注意的是:在一个连续区间中取得某个特定值的概率是0,随机变量取到某个值的概率没有概率意义,
1.已知累计概率分布函数或者概率密度函数求另一个
前者为后者积分,后者为前者导数。
注意:
概率密度函数的,某两点x1到x2的积分面积,它指的是区间概率p(x1<x<x2)。
累计概率分布函数的点x0,指的是累计概率p(x<x0)
2.已知概率分布函数或者概率密度函数求区间概率
p(a<x<b)=F(b)-F(a)=Ia->b_f(x)dx Intergrate:积分 我暂且用I表示积分符号

3.概率密度函数或者概率分布函数参数求解
利用函数性质: End 末端
F(+E)=1,F(-E)=0
I-E->+E_f(x)dx=1
F(x)函数是单调递增的函数,表示累计概率
4.求解分布律
分布律:随机变量所有可能取值以及各取值发生的概率,一般用列表表示叫做:分布列
【一维随机变量函数】
1.已知x分布列,和用y(x)求y分布列
2.已知概率分布函数Fx(x)和y(x)求Fy(y)
3.已知概率密度函数fx(x)和y(x)求fy(y)
【常见的五种分布】
1.均匀分布

概率密度函数图像为水平线
2.泊松分布(离散分布)

P(X=k)=n^k/k! * e^-n
概率分布图像近似正态分布不同在于离散
3.二项分布(离散分布,且随机变量取值空间:两个离散值)

4.指数分布
f(x)={Ne^−Nx,(x≥0);0, (x<0)​
5.正态分布
写作:N(n,m) n为中心坐标 m为分布方差关系到图像幅度
图像为钟型曲线
概率密度函数为
f(x)=n*G(2Pi)-1*exp(-(x-m)2/2n^2)
【离散型二维变量】
1.已知离散型分布律求???某概率
2.已知二维离散型分布律,判断独立性
如果任意x1,y1都满足p(X=x1,Y=y1)=p(X=x1)p(Y=y1)那么X,Y相互独立否则不相互独立
3.已知F(x,y)求f(x,y)
F(x,y)对x,y求偏导便得到f(x,y)
4.已知f(x,y)求F(x,y)
5.已知F(x,y)求p
6.已知f(x,y)求p
7.根据F(x,y),f(x,y)性质求F(x,y)或者f(x,y)中含有的未知数
8.均匀分布的f(x,y)和p
【连续型二维变量】
1.边缘密度函数
2.连续型二维变量的独立性
3.已知概率密度函数f(x,y),z与x,y关系z(x,y)求fz(z)
4.。。。。。
【数字特征】
1.离散型变量期望
2.连续型变量期望
3.方差
D(x)=累加(xi-E(X))^2
pi
D(x)=E(x2)-E2(x)
4.E(x)D(x)的运算性质
E©=c D©=0
E(cx)=cE(x) D(cx)=C^2D(x)
5.相关系数
6.协方差
Cov(x,y)=E(xy)-E(x)*E(y)
Cov(x,y)=D(x)
cov(x,y)=0(x,y相互独立时)
cov(x,y)=Lxy根下(D(x)D(y)
7.切比雪夫不等式 区间概率
P[|x-E(x)|>=b]<=D(x)/b^2

二.数理统计
1.矩估计法
设总体x的分布函数的形式已知,但他的一个或多个参数位置,借助于总体的一个样本来估计总体的模型未知参数
的值称为参数点估计

设X是一个随机变量,若E(X^k)存在,则称她为k阶矩,其实就是x^k的期望或者均值
抽出的样本的k阶矩:
由于抽样离散所以用加和平均方法求期望得到的就是样本的k阶矩了

样本的k阶矩是总体k阶矩的无偏估计量,两者大体相等,利用这个等价关系做等式

例如:总体X在[a,b]上服从均匀分布,x1,x2,x3,x4,x5,…xn是来自x的样本试求a,b的矩估计量。

样本1阶矩:A1=x1+x2+x3+x4+......xn/n      (1)
总体1阶矩:M1=E(x)=a+b/2	                 (2)

样本2阶矩:A2=x1^2+x2^2+x3^2+x4^4+.......xn^2/n          (3)
总体2阶矩:M2=E(x^2)=D(x)+E(x)^2=(b-a)^2/12+(a+b)^2/4    (4)

联立(1)=(2)   (3)=(4)
得出a,b

2.最大似然估计

最大似然估计应用在已知概率分布或者概率密度函数模型和一部分样本的情况下,推算具体的概率密度函数,也就是求概率密度函数参数的场景中。
似然性与概率的关系:概率p(x|b)是在已知参数b的情况下,发生观测结果x可能性大小
似然性L(b|x)则是从观测结果x出发,分布函数的参数为b的可能性大小
似然函数如下:
L(b|x)=p(x;b)<=>p(x|b)

其中x已知,b是未知参数
它表述了:从结果反推各个可能原因中最有可能的原因 可以参考各原因中哪个原因最有可能导致此结果,似然文言文意思:应该似乎是这样(就像是侦探柯南推理)

若:L(b1|x)<=>p(x|b1)>p(x|b2)<=>L(b2|x)
那么意味着b=b1时,随机变量X生成x的概率大于当参数b=b2时。这也是似然的意义所在,若观测数据为x那么b1更可能是分布函数的参数

例如:离散型随机变量X 的分布律为P(X|b) ,设x1,x2,x3,x4为来自X的样本,b为待估参数。
在参数b=b?时,取到x1,x2,x3,x4的概率为
L(b?|x1,x2,x3,x4)=p(x1,x2,x3,x4;b?)=p(x1|b?)*p(x2|b?)*p(x3|b?)*p(x4|b?)
我们把那个最有可能的b?设为b* ,b*情况下抽样结果最有可能取得x1,x2,x3,x4,即在众多b的取值中b*对应的L(b*|x1,x2,x3,x4)最大
如何求b*呢?
一般情况下我们用导数,求p(x1|b?)*p(x2|b?)*p(x3|b?)*p(x4|b?)关于b的导数,导数为0时为极值点,此时b的取值就是b*。求导如果直接运算太费事,一般需要先变换,连乘可以用对数函数转化为连加,然后再求导

3.最小二乘法
假如一个离散的数据集他们散落在二维坐标系中大致是一个线性的分布状态,如果求一条可以和他们大致吻合的直线怎么求?
我们用损失量描述吻合程度,他们成反比。
最小二乘法是寻找最小损失量即最吻合数据的直线的方法
原理:
设直线y=ax+b是最吻合数据的直线,数据集为点(Xi,Yi)(i=0,1,2,3,4…m),模型值yi=aXi+b与实际值Yi存在误差c,设
c=yi-Yi,c服从中心极限定理(影响随机变量取值的各个比较重要的因素独立,取较多次值,这些值它们就服从正态分布),误差c有正有负可以将大体的期望看做是0方差不确定
c~N(0,n^2),那么Yi=aXi+b+c也服从正态分布 Yi~N(aXi+b,n^2),只不过每一个(Xi,Yi)(i=0,1,2,3,4…m)都在不同的正态分布中,要估计参数a,b可用最大似然估计

 似然:L(a,b|Xi,Yi)=p(YiXi;a,b)=p(y1|x1;a,b)........*p(ym|xm;a,b)
 其中:
								(注意每一个p(xi,yi|a,b)服从的正态分布都不同)
	p(yi|xi;a,b)=n*G(2Pi)^-1*exp(-(Yi-aXi-b)^2/2n^2)
求最大似然 :它们的正态分布有同样的方差:n^2,也就是说要让L最大只能让exp(-(Yi-aXi-b)^2)累乘最大也就是累加 S((Yi-aXi-b)^2)最小也就是S((Yi-yi)^2)最小

Loss=S((Yi-yi)^2)或者S((Yi-aXi-b)^2)叫做损失函数,损失函数最小的时候最吻合----------------最小二乘法

对此函数求偏导,使其为0得到a,b,数学计算待会吧。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值