3.简单概率论
3.1 概率空间(Wahrscheinlichkeitsraum)
三元式:
(Ω,F,P)
Ω:
结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6
F
⊆2Ω:
事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数
P(Wahrscheinlichkeitsmass):每个事件的概率
其中F还具有以下属性:
1.F可以包括空事件,全事件//triviale Ereignis
2.F对Vereinigung和Komplement闭合//Vereinigung指联合Komplement指互补,在这里指什么还木弄清楚??待查明
另外P满足下列属性:
1.非负(Nichtnegativitaet):
2.全事件概率为一:
P(Ω)=1
3.符合加法属性(Additivitaet):对于所有的事件a,b
∈F且a∩b=∅:P(a∪b)=P(a)+P(b)
3.2 多变量分布(Multivariate Verteilungen)
随机变量(Zufallsvariable)://不解释了吧
多变量分布(Multivariate Verteilungen):多维随机变量的概率分布
边缘分布(Randverteilungen):
P(X,Y)是一个多变量分布
边缘分布P(X)=
∑b∈Val(Y)P(X,Y=b)
3.3 条件分布(Bedingte Verteilungen)
即当一个变量已知的条件下,另一个变量的概率分布
公式:
P(X=a|Y=b)=P(X=a,Y=b)P(Y=b)
不相关性(Unabhängigkeit):当一个变量的概率已知时并不会影响另一个变量的概率分布,他符合下面的公式:
P(X)=P(X|Y)
P(X,Y)=P(X)∗P(Y)
3.4 概率函数(Wahrscheinlichkeitsfunktion)
离散随机变量:
f(x)=P(X=x)
f必须非负且
∑xf(x)=1
连续随机变量:
密度函数(Dichtfunktion):
P(X∈[a,b]=∫baf(x)dx)
P(X=v)=0
f(x)
≥0
∫∞−∞f(x)dx=1
3.5 期望与方差(Erwartungswert und Varianz)
离散: E(X)=
∑a∈Val(X)a∗P(X=a)
连续: E(X)=
∫Val(x)x∗f(x)dx
方差: Var(x)=
E((X−E(X))2)=E(X2)−E(X)2
3.6 协方差与相关比(Kovarianz,diverse Korrelationsmasse)
Kovarianz和Korrelationsmasse的区别:协方差是未标准化得(nicht normiert)而相关比是标准化了的,他的值域是
[−1,1]
//未标准化指不同的背景(上下文Kontext)的值,是不可以进行比较的
两随机变量的协方差的定义:
Cov(X,Y)=E((X−E(X)∗(Y−E(Y))))
//协方差是用来度量什么关系的呢??回头再查吧
一个随机变量的与其自身的协方差就是他的方差
协方差矩阵(Kovarianzmatrix):用矩阵的形式表示向量随机变量不同参数的之间的协方差//他是对称的,可作为PCA的输入
4.统计测试(Statistische Test)
4.0 学习目的
1.学习各种Test的构成
2.了解不同Test的作用
3.学会应用不同的Test
//数学基础和Test的来源将不会被提及
4.1 Chi-Quadrat Test
目的:比较两个分布的关联性(unabhaengigkeit)
方法:对观察值和期望值进行比较
公式:
χ2=∑m1i=1∑m2j=1(nij−eij)2eij
其中
m1
表示第一个属性有m1个取值,n表示观测到的出现的个数,e表示出现个数的期望
结果越小说明关联越大
4.2 Kolmogorov-Smirnov Test
目的:比较两个不同的分布是否统一或者识别一个分布是否与预测的一致//同时适用于离散和连续的数据
方法:以样本的累积频数分布和特定理论分布比较
例子:比较测量的到的天气温度是否与预测的一样
1.首先要进行数据收集,然后画出关于温度的频数分布图
2.然后依据频数分布图,求出相应的累积频数分布
3.用得到的累积频数分布和事前预测的累积频数分布做比较,计算差值
4.差值越小说明预测越准确
4.3 Wilcoxon-Mann-Whitney Test
目的:比较两个分布的差异性
方法:假定检测的两组数据没有差异。首先不管分组,把所有数据进行排序,并按数值大小给定一个值叫秩。秩最小为1,最大为n。如果有相同的值,那么他们的秩相同,其值为各自秩的平均值。如果这两个组的秩之和比较大就会得到较小的p值,那么我们就认为这两个组之间有显著的差距
//注 这里关注的并非分布而是中值
//样本量太小得话效度会很低
//方法这一段是从别人的Blog上照搬过来的 原址早在不知处了
4.4 Bernoulli-Experiment
//跳了 占时没看明白 回看
//名字就是伯努利实验,但老师上课讲得感觉有点不一样 弄明白再补吧
5.数据缩减(Datenreduktion)
是指数据库的一种呈现方式(Repräsentation des Datenabstands),他占用明显比较小得空间,但是他的分析结果确实几乎不变的
他的主要方法有:
1.数量缩减(Numerosity Reduction) 缩减数据量
2.维度缩减(Dimensionality Reduction) 缩减属性
3.离散化(Diskretisierung) 简化存储值
5.1 Numerosity Reduction
针对参数化(parametrisch)和非参数化(nichtparametrisch)的分布有不同的方法
针对参数分布的方法(parametrische Verfahren):
假设数据分布符合特定的模型(Modell)
估计模型参数,并且只存储不在状况内的数据
针对非参数分布的方法(nichtparametrische Verfahren)
没有假设
常用的方法有:Sampling,Clustering,Histogramme
//未完待续 虽然可能会待很久的说