一、蒙特卡洛方法
- 蒙特卡洛的一般原理:处理缺乏实验数据的问题,一般会用蒙特卡洛方法来产生所需要的实验数据。
- 蒙特卡洛方法结题的基本步骤:
- 确定所要模拟的目标以及实现这些目标的随机变量,一般情况下,目标就是这些随机变量的期望
- 找到原问题中随机变量的分布规律
- 大量抽取随机样本以模拟原问题的随机量
- 求出随机样本的样本平均值
二、马尔科夫方法
- 马尔科夫过程:马尔科夫过程的特性在于未来的演变不依赖于它过去的演变,这种性质被称为无后效性
- 转移概率矩阵:马尔科夫链 { X n , n ≥ 0 } \left\{X_{n}, n \geq 0\right\} {Xn,n≥0}在时刻m处于状态i的条件下,在时刻m+n转移的状态j的条件概率记为n步转移概率,记为 { X m + n = j ∣ , X m = i } \left\{X_{m+n} = j|, X_m=i\right\} {Xm+n=j∣,Xm=i}
- 显然有结论: ∑ j ∈ E P ( X m + n = j ∣ X m = i ) = 1 \sum_{j \in E} P\left(X_{m+n}=j \mid X_{m}=i\right)=1 ∑j∈EP(Xm+n=j∣Xm=i)=1
三、逻辑回归方法
- 在线性回归的基础上,选择一个非线性函数,从而使得我们的线性模型转化成介于0-1或者-1~1之间的一个数据,从而对连续型数据离散化,达到二分类的效果
- 逻辑回归获得的数据我们可能会得到一个0~1之间的数据,他表示的是是正类的概率
- 逻辑回归的响应变量:
- logit ( p ) = ln ( p 1 − p ) \operatorname{logit}(p)=\ln \left(\frac{p}{1-p}\right) logit(p)=ln(1−pp)
- p(1-p)是用来描述时间发生强度的统计指标,称为优势
四、聚类分析方法
- 聚类分析过程:根据数据样本的性质,将具有相近特质的样品或变量分在一组,既可以根据不同组的特征进行不同的处理,也可以对同组数据进行更进一步的分析
- Q型聚类:对样本进行分类处理,距离由样本相似性来度量
- 闵可夫斯基距离: d ( x i , x j ) = ( ∑ k = 1 d ∣ x i k − x j k ∣ q ) 1 q d\left(x_{i}, x_{j}\right)=\left(\sum_{k=1}^{d}\left|x_{i k}-x_{j k}\right|^{q}\right)^{\frac{1}{q}} d(xi,xj)=(∑k=1d∣xik−xjk∣q)q1
- 当q=1时,称绝对距离,当q=2,称欧式距离
- 马氏距离: d i j 2 ( M ) = ( X i − X j ) ′ Σ − 1 ( X i − X j ) d_{i j}^{2}(M)=\left(X_{i}-X_{j}\right)^{\prime} \Sigma^{-1}\left(X_{i}-X_{j}\right) dij2(M)=(Xi−Xj)′Σ−1(Xi−Xj)
- R型聚类:对变量进行分类处理,距离由变量相似性来度量
- 用相关系数或者夹角余弦来评估
- 夹角余弦: cos θ i j = ∑ k = 1 p x i k x j k ∑ k = 1 p x i k 2 ∑ k = 1 p x j k 2 \cos \theta_{i j}=\frac{\sum_{k=1}^{p} x_{i k} x_{j k}}{\sqrt{\sum_{k=1}^{p} x_{i k}^{2}} \sqrt{\sum_{k=1}^{p} x_{j k}^{2}}} cosθij=∑k=1pxik2∑k=1pxjk2∑k=1pxikxjk
- K均值聚类
K均值聚类首先人为确定分类数,起步于一个初始化的分类,然后通过不断的迭代把数据在不同类别之间移动,直到最后达到预定的分类数为止。- 第一步:将所有的样本分成K个初始类
- 第二步:逐一计算每一样本到各个类别中心点的距离,把各个样本按照距离最近的原则归入各个类别,并计算形成的中心点
- 第三步:按照新的位置,重新计算每一个样本距离新的类别中心点的距离,并重新进行归类,更新类别中心点
- 第四步:重复第三步,直到达到一定的收敛标准或者达到分析者事先指定的迭代次数为止