1 数据预处理
来自数据挖掘:理论与算法
1.1 数据清洗
缺失数据:ignore、fill
outliers:偏离主流的点
anomaly:异常点,和outlier不完全一样
重复数据:可以加滑动窗口,窗口内相同的数据去掉
1.2 特征选择
熵H(X)=-sum(p(xi)logp(xi))熵越大,不确定性越大
熵的差值可以表征某个数据的作用
如果某个属性满足单调性,可以剪枝而不影响结果
1.3 主成分分析(PCA)
三维物体向二维投影,不同方向投影信息损失不一样
方差variance越大,表示某个属性越重要
求解特征值,取较大的几个特征值,使得可以降维并且数据的损失量最小
1.4 线性判别分析
PCA的问题在于他一般不考虑label
2 排队论
2.1 泊松分布
医院一天(或者一小时、一周)接纳的病人的总数可以看作是符合泊松分布的随机变量
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
P(X=k)=\frac{e^{-\lambda }\lambda^{k}}{k!}
P(X=k)=k!e−λλk
Poisson分布另一个定义是
- 时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
- 在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
- 该事件在不同的小时间段里,发生与否相互独立。
和二项分布之间的关系: 泊松分布是二项分布n很大而p很小时的一种极限形式
二项分布的数学期望 E ( X ) = n p ≈ λ E(X)=np \approx \lambda E(X)=np≈λ
泊松分布的数学期望 E ( X ) = λ E(X)=\lambda E(X)=λ, λ \lambda λ称为泊松分布的速率(单位时间发生的次数), P ( 两 次 事 件 之 间 的 间 隔 ) = e − λ t P(两次事件之间的间隔)=e^{-\lambda t} P(两次事件之间的间隔)=e−λt服从均值是 1 λ \frac{1}{\lambda} λ1的指数分布
2.2 排队论常用模型
M/G/1 Queueing Nodes
M:乘客到达符合泊松分布
G:服务时间任意分布??高斯分布
1:一个服务台
3 高斯过程回归
3.1 高斯分布结论
摘自知乎https://zhuanlan.zhihu.com/p/24874304
- 两个独立高斯分布的随机变量的乘积不是高斯分布,但是两个高斯密度函数的乘积仍然可以做成一个高斯的密度函数
- 若是先验是高斯的,外加似然是高斯似然(当然若是给定N个独立的观测值,每个假定服从高斯分布,那么N高斯分布的密度函数的乘积也必定是高斯分布),则后验也是高斯分布
3.2 高斯过程
转自https://zhuanlan.zhihu.com/p/27555501
高斯过程GP:是一系列关于连续域(时间或空间)的随机变量的联合,而且每一个时间点上的随机变量都是服从高斯分布的。
被mean和covariance function共同唯一决定!
协方差函数covariance function也称为核函数,常用的核函数有
3.3 高斯过程回归的计算
摘自https://blog.csdn.net/qq_20195745/article/details/82721666
分母是先验分布,通过给定数据
(
x
1
,
y
1
)
(x_1,y_1)
(x1,y1),
(
x
2
,
y
2
)
(x_2,y_2)
(x2,y2),
(
x
n
,
y
n
)
(x_n,y_n)
(xn,yn)可求
分子是联合分布
4 评价模型
4.1 AHP
摘自https://zhuanlan.zhihu.com/p/35051786
原来准则层对方案层也有支配
4.2 熵权法
请看https://zhuanlan.zhihu.com/p/28067337
4.3 主成分分析法(PCA)
常用的降维方法,将数据从n维映射到k维上,投影原则的方差最大化
- 对原来的p个指标标准化
- 根据标准化后的数据矩阵求相关系数矩阵
- 求出协方差矩阵的特征根和特征向量
- 取较大的k个特征值,对应的k个特征向量分别作为列向量组成特征向量矩阵n*k的矩阵
- 姜样本点映射到选取的特征向量上
5 时间序列预测
5.1 确定性时间序列
s表示预测值,y表示实际值
- 简单移动平均法
s t + 1 = y t + y t − 1 + … … + y t − N + 1 N s_{t+1}=\frac{y_t+y_{t-1}+……+y_{t-N+1}}{N} st+1=Nyt+yt−1+……+yt−N+1 - 加权移动平均法
s t + 1 = w 1 y t + w 2 y t − 1 … … w N y t − N + 1 s_{t+1}=w_1y_t+w_2y_{t-1}……w_Ny_{t-N+1} st+1=w1yt+w2yt−1……wNyt−N+1
w 1 + w 2 + … … + w N = 1 w_1+w_2+……+w_N=1 w1+w2+……+wN=1 - 一次指数平滑:通过对过去的观察值加权平均进行预测,使得t+1的预测值是t的实际值与t的预测值的加权平均。
s t + 1 = α y t + ( 1 − α ) s t s_{t+1}=\alpha y_t+(1-\alpha)s_{t} st+1=αyt+(1−α)st
α \alpha α称为是平滑系数
5.2 平稳时间序列模型
ϵ ( t ) \epsilon (t) ϵ(t)表示t时间的白噪声
自回归移动平均序列ARMA
自回归移动平均模型由两部分组成:自回归部分和移动平均部分,可以表示为ARMA(p,q),p是自回归阶数,q为移动平均阶数,回归方程表示为:
y
(
t
)
=
c
+
ϵ
(
t
)
+
∑
i
=
1
p
ϕ
i
y
(
t
−
i
)
+
∑
i
=
1
q
θ
i
ϵ
(
t
−
i
)
y(t)=c+\epsilon (t)+\sum_{i=1} ^{p} {\phi _iy(t-i)}+\sum_{i=1} ^{q} {\theta _i \epsilon (t-i)}
y(t)=c+ϵ(t)+i=1∑pϕiy(t−i)+i=1∑qθiϵ(t−i)
其中
ϕ
i
\phi _i
ϕi和
θ
i
\theta_i
θi都是权重
6 支持向量回归
代码见https://blog.csdn.net/lpsl1882/article/details/52411987
公式见https://blog.csdn.net/zb123455445/article/details/78354489 https://www.cnblogs.com/coldyan/p/6518468.html
类似于支持向量机,只是找到函数表达式,使得残差最小
7 微分方程模型
7.1 传染病模型
7.1.1 简单模型
i
(
t
+
Δ
t
)
−
i
(
t
)
=
λ
i
(
t
)
Δ
t
i(t+ \Delta t)-i(t)=\lambda i(t) \Delta t
i(t+Δt)−i(t)=λi(t)Δt
d
i
d
t
=
λ
i
\frac {di}{dt}=\lambda i
dtdi=λi
i
(
t
)
=
i
0
e
λ
t
i(t)=i_0 e^{\lambda t}
i(t)=i0eλt
7.1.2 SI模型
病人只传染给接触的健康人
N
[
I
(
t
+
Δ
t
)
−
i
(
t
)
]
=
λ
[
1
−
i
(
t
)
]
N
i
(
t
)
Δ
t
N[I(t+\Delta t)-i(t)]=\lambda [1-i(t)] Ni(t) \Delta t
N[I(t+Δt)−i(t)]=λ[1−i(t)]Ni(t)Δt
d
i
d
t
=
λ
i
(
1
−
i
)
\frac {di}{dt}=\lambda i(1-i)
dtdi=λi(1−i)
i
(
t
)
=
1
1
+
(
1
i
0
−
1
)
e
−
λ
t
i(t)=\frac {1}{1+(\frac {1}{i_0}-1)e^{-\lambda t}}
i(t)=1+(i01−1)e−λt1
logistic 模型,
t
=
λ
−
1
l
n
(
1
i
0
−
1
)
t=\lambda^{-1}ln(\frac{1}{i_0}-1)
t=λ−1ln(i01−1)时
i
=
1
/
2
i=1/2
i=1/2
7.1.3 SIS模型
考虑到病人可以被治愈,令
μ
\mu
μ是日治愈率,则
1
μ
\frac{1}{\mu}
μ1表示感染期
令
σ
=
λ
μ
\sigma=\frac{\lambda}{\mu}
σ=μλ,表示一个感染期内每个病人的有效接触人数
d
i
d
t
=
λ
i
(
1
−
i
)
−
μ
i
=
−
λ
i
[
i
−
(
1
−
1
σ
)
]
\frac{di}{dt}=\lambda i(1-i)-\mu i=-\lambda i[i-(1-\frac{1}{\sigma})]
dtdi=λi(1−i)−μi=−λi[i−(1−σ1)]
i
(
∞
=
)
{
1
−
1
σ
σ
>
1
0
σ
≤
1
i(\infty= )\left\{\begin{matrix} 1-\frac{1}{\sigma}&\sigma >1 \\ 0&\sigma \leq 1 \end{matrix}\right.
i(∞=){1−σ10σ>1σ≤1
7.1.4 SIR模型
病人被治愈之后有免疫性
设病人、健康人、和移出者的比例分别是
i
(
t
)
,
s
(
t
)
,
r
(
t
)
i(t),s(t),r(t)
i(t),s(t),r(t)
{
i
(
t
)
+
s
(
t
)
+
r
(
t
)
=
1
d
i
d
t
=
λ
s
i
−
μ
i
d
s
d
t
=
−
λ
s
i
\left\{\begin{matrix} i(t)+s(t)+r(t)=1\\ \frac{di}{dt}=\lambda si-\mu i\\ \frac{ds}{dt}=-\lambda si \end{matrix}\right.
⎩⎨⎧i(t)+s(t)+r(t)=1dtdi=λsi−μidtds=−λsi
7.2 人口增长模型
7.2.1 指数增长模型
d
x
d
t
=
r
x
\frac{dx}{dt}=rx
dtdx=rx
x
k
=
x
0
e
r
t
x_k=x_0e^{rt}
xk=x0ert
7.2.2 logistic模型
d
x
d
t
=
r
x
(
1
−
x
x
m
)
\frac{dx}{dt}=rx(1-\frac{x}{x_m})
dtdx=rx(1−xmx)
r
r
r称为固有增长率,
x
m
x_m
xm称为人口容量
x
(
t
)
=
x
m
1
+
(
x
m
x
0
−
1
)
e
−
r
t
x(t)=\frac{x_m}{1+(\frac{x_m}{x_0}-1)e^{-rt}}
x(t)=1+(x0xm−1)e−rtxm
7.3 经济增长模型
7.3.1 道格拉斯生产函数
用Q表示产值,K表示资金,L表示劳动力
Q
=
c
K
α
L
1
−
α
Q=cK^\alpha L^{1-\alpha}
Q=cKαL1−α
求导可得
K
∂
Q
∂
K
+
L
∂
Q
∂
L
=
Q
K\frac{\partial Q}{\partial K}+L\frac{\partial Q}{\partial L}=Q
K∂K∂Q+L∂L∂Q=Q
7.3.2 资金和劳动力的最佳分配
假设资金来自贷款,利率为r,每个劳动力工资是w
S
=
Q
−
r
K
−
w
L
S=Q-rK-wL
S=Q−rK−wL
K
L
=
α
1
−
α
w
r
\frac{K}{L}=\frac{\alpha}{1-\alpha}\frac{w}{r}
LK=1−ααrw
8 博弈论
转自https://www.zhihu.com/question/22821519/answer/26438258
帕累托最优:要增加一方的利益就必须减损别人的利益
完全信息静态博弈:每个人在不知道其他人行动的情况下选择自己的行动
占优策略:不管其他人选择什么战略,他的最优战略是唯一的,这种最优战略被称为占优战略
均衡:稳定且可测的互动行为模式
占优战略均衡:如果所有人的占优战略都存在,那么占优战略均衡是可以预测的唯一的均衡
但是绝大多数的博弈中,占优战略均衡是不存在的
重复剔除的占优战略均衡:重复剔除劣战略后剩下唯一的战略组合
合作均衡:各方协调行动,以求共同的支付最优化的策略而达到的结果
社会两难博弈(social dilemma):博弈的占优策略均衡与合作均衡相悖
有些博弈可以通过第三方的介入,使得社会两难博弈得到合作均衡
纳什均衡:无法通过单方面改变自己的行动来增加利益,也就是敌不动我不动,我不动,敌不动
每一个占优战略均衡、重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优战略均衡或重复剔除的占优均衡。
多重纳什均衡:一局博弈存在两个或两个以上的纳什均衡
纳什均衡的多重性问题:对于有多个纳什均衡的博弈而言,我们无法肯定的证明这个博弈的纳什均衡一定会出现,这个问题称为纳什均衡的多重性问题
谢林点:从各方的文化和经验中找到线索,一该线索为基础选择出的均衡点称为谢林点
纳什均衡的精炼:帕累托最优标准、相关均衡、聚点均衡风险优势标准
零和博弈:每个策略二人收益之和为0
纯策略:唯一确定的策略
博弈有可能没有纯策略纳什均衡
任何一个给定的二人博弈(不管是否零和),一定存在混合策略纳什均衡
合理性原则:博弈的双方可以按照一定的概率随机的选择自己策略集合中的任一策略,那么所选的一组概率应该能够让双方对他的每一个纯策略的选择持无所谓的态度,也就是使对方的每一个纯策略的期望收益相等
非零和博弈:各方的收益和损失的总和不是零值
一个博弈案例中,如果有多个纳什均衡点的情况,所有博弈者通过相互合作达到总利益最大的纳什均衡点称为帕累托最优
三人博弈的纳什均衡:划线法:
抗共谋纳什均衡:满足这样条件的策略组合,不仅要求局中人在这个策略组合下没有单独偏离的动机,而且也要求他们没有合伙偏离的动机。