数据预处理.1
缺失值处理
- 删除法
删除小部分样本,在样本量大时(删除部分所占比例小于5%时)可以使用 - 插补法
—均值插补:分为定距型(插入均值)和非定距型(众数或者中值)
—回归插补:线性和非线性回归
—极大似然估计MLE(正态分布为例)
极大似然原理的直观想法我们用下面例子说明,在《权力的游戏》中有个场景,老徒利死的时候,尸体放在穿上,需要弓箭手在岸边发射火箭引燃。但是当时的艾德慕·徒利公爵射了三箭都没中,布林登·徒利实在看不下去了,通过旗帜判断风向,一箭命中!
因此箭能否射中靶心,不仅跟弓箭手的瞄准能力有关,还跟外界的风向有关系。假设不考虑人的因素,但看风向…同样的瞄准和力度,风太大不行、太小也不行….那我们给风的大小设置一个值为θ。假设一名弓箭手射出了三只箭,分别是8环、6环、7环(即x1=8,x2=6,x3=7),当天风的大小为88。那么我们认为只有θ=88,发生上面事件的概率最大。
极大似然估计法该原理指的是在已知数据模型的情况下,得出该组数据生成概率最大的情况下所对应的参数值,即为估计结果。
如果需要插补的话应该在得出具体方程后进行代入数据得出函数值即可
代码举例:
t=[35,38,40,43,45,47,48,50,52,54,55,57,60,61,63,65,67,73,77,84] %试验数据
PDF=@(t,a,b,c) (a./b.^a).*(t-c).^(a-1).*exp(-((t-c)./b).^a); %该函数为正态分布的概率密度函数,也可以在其他情况下为其他种类概率密度函数
start=[2 30 30]; %三个a b c的初值
[phat, pci]=mle(t,'pdf',PDF,'start',start) %phat估计值 pci估计区间,求出abc的估计值
当然首先也要判断是否服从正态分布:
[h,p]=lillietest(X)
返回值h只有0和1两种情况,h=0符合正态分布,h=1不符合正态分布
返回值p为方差概率,也可以说事情的发生概率,p<0.05(显著性水平通常取0.05,还有0.025和0.01三种情况)为不可能事件,拒绝;p>0.05,接受,参数X为要检测的数据