大型数据库分析技巧-统计学基础2

最新推荐文章于 2024-09-30 09:09:52 发布

尤曦

最新推荐文章于 2024-09-30 09:09:52 发布

阅读量685

点赞数

分类专栏： Data mining 文章标签：数据库统计测试概率论

Data mining 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

3.简单概率论

3.1 概率空间(Wahrscheinlichkeitsraum)

三元式： $(\Omega,F,P)$
$\Omega:$ 结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6
F $\subseteq 2^\Omega :$ 事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数
P(Wahrscheinlichkeitsmass):每个事件的概率
其中F还具有以下属性：
1.F可以包括空事件，全事件//triviale Ereignis
2.F对Vereinigung和Komplement闭合//Vereinigung指联合Komplement指互补，在这里指什么还木弄清楚？？待查明
另外P满足下列属性：
1.非负(Nichtnegativitaet):
2.全事件概率为一: $P(\Omega)=1$
3.符合加法属性(Additivitaet):对于所有的事件a,b $\in F 且 a\cap b =\varnothing:P(a \cup b)=P(a)+P(b)$

3.2 多变量分布(Multivariate Verteilungen)

随机变量(Zufallsvariable)://不解释了吧
多变量分布(Multivariate Verteilungen):多维随机变量的概率分布
边缘分布(Randverteilungen):
P(X,Y)是一个多变量分布
边缘分布P(X)= $\sum_{b \in Val(Y)} P(X,Y=b)$

3.3 条件分布(Bedingte Verteilungen)

即当一个变量已知的条件下，另一个变量的概率分布
公式： $P(X=a|Y=b)=\frac{P(X=a,Y=b)}{P(Y=b)}$
不相关性(Unabhängigkeit):当一个变量的概率已知时并不会影响另一个变量的概率分布，他符合下面的公式：
$P(X)=P(X|Y)$
$P(X,Y)=P(X)*P(Y)$

3.4 概率函数(Wahrscheinlichkeitsfunktion)

离散随机变量:
f(x)=P(X=x)
f必须非负且 $\sum_x f(x)=1$
连续随机变量:
密度函数(Dichtfunktion): $P(X \in[a,b]=\int_a^bf(x) dx)$
P(X=v)=0
f(x) $\ge0$
$\int_{-\infty}^\infty f(x)dx=1$

3.5 期望与方差(Erwartungswert und Varianz)

离散: E(X)= $\sum_{a \in Val(X)} a*P(X=a)$
连续: E(X)= $\int_{Val(x)} x*f(x)dx$
方差: Var(x)= $E((X-E(X))^2)=E(X^2)-E(X)^2$

3.6 协方差与相关比(Kovarianz,diverse Korrelationsmasse)

Kovarianz和Korrelationsmasse的区别:协方差是未标准化得(nicht normiert)而相关比是标准化了的，他的值域是 $[-1,1]$ //未标准化指不同的背景(上下文Kontext)的值，是不可以进行比较的
两随机变量的协方差的定义: $Cov(X,Y)=E((X-E(X)*(Y-E(Y))))$
//协方差是用来度量什么关系的呢？？回头再查吧
一个随机变量的与其自身的协方差就是他的方差
协方差矩阵(Kovarianzmatrix):用矩阵的形式表示向量随机变量不同参数的之间的协方差//他是对称的,可作为PCA的输入

4.统计测试(Statistische Test)

4.0 学习目的

1.学习各种Test的构成
2.了解不同Test的作用
3.学会应用不同的Test
//数学基础和Test的来源将不会被提及

4.1 Chi-Quadrat Test

目的:比较两个分布的关联性(unabhaengigkeit)
方法:对观察值和期望值进行比较
公式: $\chi^2=\sum_{i=1}^{m_1}\sum_{j=1}^{m_2}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}$
其中 $m_1$ 表示第一个属性有m1个取值，n表示观测到的出现的个数，e表示出现个数的期望
结果越小说明关联越大

4.2 Kolmogorov-Smirnov Test

目的:比较两个不同的分布是否统一或者识别一个分布是否与预测的一致//同时适用于离散和连续的数据
方法:以样本的累积频数分布和特定理论分布比较
例子:比较测量的到的天气温度是否与预测的一样
1.首先要进行数据收集，然后画出关于温度的频数分布图
2.然后依据频数分布图，求出相应的累积频数分布
3.用得到的累积频数分布和事前预测的累积频数分布做比较，计算差值
4.差值越小说明预测越准确

4.3 Wilcoxon-Mann-Whitney Test

目的:比较两个分布的差异性
方法:假定检测的两组数据没有差异。首先不管分组，把所有数据进行排序，并按数值大小给定一个值叫秩。秩最小为1，最大为n。如果有相同的值，那么他们的秩相同，其值为各自秩的平均值。如果这两个组的秩之和比较大就会得到较小的p值，那么我们就认为这两个组之间有显著的差距
//注这里关注的并非分布而是中值
//样本量太小得话效度会很低
//方法这一段是从别人的Blog上照搬过来的原址早在不知处了

4.4 Bernoulli-Experiment

//跳了占时没看明白回看
//名字就是伯努利实验，但老师上课讲得感觉有点不一样弄明白再补吧

5.数据缩减(Datenreduktion)

是指数据库的一种呈现方式(Repräsentation des Datenabstands),他占用明显比较小得空间，但是他的分析结果确实几乎不变的
他的主要方法有：
1.数量缩减(Numerosity Reduction) 缩减数据量
2.维度缩减(Dimensionality Reduction) 缩减属性
3.离散化(Diskretisierung) 简化存储值

5.1 Numerosity Reduction

针对参数化(parametrisch)和非参数化(nichtparametrisch)的分布有不同的方法
针对参数分布的方法(parametrische Verfahren):
假设数据分布符合特定的模型(Modell)
估计模型参数，并且只存储不在状况内的数据
针对非参数分布的方法(nichtparametrische Verfahren)
没有假设
常用的方法有:Sampling,Clustering,Histogramme

//未完待续虽然可能会待很久的说