数据分析-统计学知识Part2
一、随机变量的数字特征
1.期望
离散型随机变量:
E
(
x
)
=
∑
x
P
r
(
X
=
x
)
E(x)=\sum xPr(X=x)
E(x)=∑xPr(X=x)
连续型随机变量:
E
(
x
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
E(x)=\int_{-\infty}^{+\infty}xf(x)dx
E(x)=∫−∞+∞xf(x)dx
2.方差&标准差
方差可用
V
a
r
(
x
)
,
D
(
x
)
Var(x),D(x)
Var(x),D(x)表示,标准差就是方差开平方
σ
(
x
)
\sigma(x)
σ(x)
D
(
x
)
=
E
(
X
−
E
(
X
)
)
2
D(x)=E(X-E(X))^2
D(x)=E(X−E(X))2
σ
(
x
)
(
D
(
x
)
)
\sigma(x) \sqrt(D(x))
σ(x)(D(x))
得到标准差后就可通过公式标准化,统一量纲了。
X
′
=
(
X
−
μ
)
σ
X'=(X-\mu) \over \sigma
σX′=(X−μ)
3.分位数
某个样本x在整体分布中的排序情况,
P
r
(
X
<
=
t
)
=
α
Pr(X<=t)=\alpha
Pr(X<=t)=α,称t为X的
α
\alpha
α分位数,当
α
\alpha
α为0.5时,即t为随机变量X的中位数。
分位数通常用于监控异常值,比如设置合理分位数范围为【0.05,0.95】
4.协方差&相关系数
与上面几个特征不一样,协方差和相关系数针对的是多变量,需要引入联合分布:
F
(
x
,
y
)
=
P
r
(
X
<
=
x
,
Y
<
=
y
)
F(x,y)=Pr(X<=x,Y<=y)
F(x,y)=Pr(X<=x,Y<=y)
F
(
x
,
y
)
=
F
x
(
x
)
F
y
(
y
)
F(x,y)=F_{x}(x)F_{y}(y)
F(x,y)=Fx(x)Fy(y)则X,Y称为相互独立
协方差通常写成
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y),
C
o
v
(
X
,
Y
)
=
E
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
Cov(X,Y)=E(X-E(X))(Y-E(Y))
Cov(X,Y)=E(X−E(X))(Y−E(Y))
相关系数
ρ
x
y
=
C
o
v
(
X
,
Y
)
σ
(
X
)
σ
(
X
)
\rho_{xy}={Cov(X,Y) \over \sigma(X)\sigma(X)}
ρxy=σ(X)σ(X)Cov(X,Y)
当X,Y相互独立时,协方差和相关系数等于0,相关系数在【-1,1】之间分布,相关系数绝对值越大则两者线性关系越强,越接近于0则线性关系越弱
二、随机变量X+Y、XY的期望与X、Y期望的关系
任意两个X、Y随机变量都满足
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X+Y)=E(X)+E(Y)
E(X+Y)=E(X)+E(Y)
对于独立变量X、Y都满足
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
E(XY)=E(X)E(Y)
E(XY)=E(X)E(Y),反之不成立
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
E(XY)=E(X)E(Y)
E(XY)=E(X)E(Y)这个公式表明X、Y是不相关的,却不能说明X、Y是相互独立的
三、分布期望and中位数大小关系
1.中位数 = 期望,正态概率密度函数
2.中位数 > 期望,正(右)偏态概率密度函数
3.中位数 < 期望,负(左)偏态密度函数
这里的左偏,右偏是指的均值相对于中位数的位置,均值在中位数右边叫右偏(峰值在左边),均值在中位数左边叫左偏(峰值在右边)。
我的记法是,右偏态的就是大厂薪资情况,平均值看着高,众数却很低,中位数小于平均值大于众数。左偏态就是接受落后地区移民的发达国家人民收入,大多数本地人收入很高,也有一批移民拉低了平均值,中位数大于平均值。
四、变量独立与不相关的区别
不相关:指的是两者没有线性关系,但是可能会有其他非线性的关系。
独立:指的是两者毫不相干,没有关联
举个栗子:
x
2
x^2
x2与
y
y
y如果呈现线性关系,那么x和y之间就没有线性关系,即不相关。但是x和y之间很明显是有联系的,所以两者不独立。
五、常见分布的期望和方差
之前本人总对泊松分布和正态分布之间的连续和区别很不理解,之后才知道最大的区别:一个离散一个连续