机器学习7 - 算法进阶2

最新推荐文章于 2020-12-22 22:47:13 发布

YoutiaoNo2

最新推荐文章于 2020-12-22 22:47:13 发布

阅读量364

点赞数

本文链接：https://blog.csdn.net/YoutiaoNo2/article/details/108683613

版权

机器学习7 - 算法进阶2

- 知识点

知识点

距离度量。
- Manhattan: $\sum_{i}|x_{i}-y_{i}|$
- 欧式距离Euclidean: $\sqrt{\sum_{i}(x_{i}-y_{i})^2}$
- Minkowski: $(\sum_{i}|x_{i}-y_{i})^{p})^{\frac{1}{p}}$
- 杰卡德相似系数(Jaccard): $\frac{|A\cap B|}{|A\cup B|}$
- 余弦相似度(cosine similarity): $cos(\theta) = \frac{\bold{a}\cdot\bold{b}}{|\bold{a}|\cdot|\bold{b}|}$
- Pearson相关系数: $\rho_{xy} = \frac{Cov(x,y)}{\sigma_{x}\sigma_{y}}$
- 相对熵(KL散度): $\sum_{x}p(x)log\frac{p(x)}{q(x)} = E_{p(x)}log\frac{p(x)}{q(x)}$
- Hellinger距离: $D_{\alpha}(p||q) = \frac{2}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}dx)$
  Person相关系数即x,y坐标平移到原点后的夹角余弦。Hellinger当 $\alpha$ 为01时，退化为 $D (p ∣ ∣ q), D (q ∣ ∣ p)$ 。
K-means聚类
- 选定初始中心（可以使用elbow方法来选取中心数）
- 对于每个样本，将其标记为距离类别中心最近的类别
- 将每个中心更新为隶属该类别的所有样本的均值
- 重复迭代直到满足一定的迭代步数或者MSE或者簇中心变化率。
  需要做feature scaling。

损失函数：
$\sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}||x_{n}-\mu_{k}||^2$
其中 $r_{nk}=1$ 如果 $x_{n}$ 属于中心k，否则为0。 $\mu_{k}$ 为参数。

聚类的衡量指标：
- 均一性：一个簇只含有一个类别的样本，则满足均一性
  $\frac{1}{k}\sum_{i=1}^{k}\frac{N(C_{i}==K_{i})}{N(K_{i})}$
- 完整性：同类别样本被归类到相同簇中，则满足完整性
  $\frac{1}{k}\sum_{i=1}^{n}\frac{N(C_{i}==K_{i})}{N(C_{i})}$
- V-measure：均一性和完整性的加权平均
  $\nu_{\beta} = \frac{(1+\beta)\cdot pr}{\beta\cdot p+r}$
- 调整兰德系数(ARI, Adjusted Rnd ARI)，范围为[-1,1]，越高越好。
- 调整互信息(AMI，Adjusted Mutual Information)，越高越好。
- 轮廓系数：
  - 簇内不相似度：计算样本i到同簇其它样本的平均距离为ai;ai越小，表示样本i越应该被聚类到该簇，簇C中的所有样本的ai的均值被称为簇C的簇不相似度。
  - 簇间不相似度：计算样本i到其它簇Cj的所有样本的平均距离bij，i=min{bi1,bi2,…,bik}；bi越大，表示样本i越不属于其它簇。
  - 轮廓系数： $s_{i}$ 值越接近1表示样本i聚类越合理，越接近-1，表示样本i应该分类到另外的簇中，近似为0，表示样本i应该在边界上；所有样本的si的均值被成为聚类结果的轮廓系数。
    $\frac{b(i)-a(i)}{max\{a(i),b(i)\}} \quad s(i) = \begin{cases} 1-\frac{a(i)}{b(i)} \quad a(i)<b(i)\\ 0 \quad a(i) = b(i) \\ \frac{a(i)}{b(i)}-1 \quad a(i)>b(i) \end{cases}$

除了轮廓系数，都需要标签来计算。

层次聚类法：对给定的数据集进行层次的分解，直到满足某种条件为止。
- 凝聚的层次分类：AGNES
  自底向上的策略，先把每个样本作为一个簇，然后不断合并直到满足终止条件。
  距离：
  - 最小距离：两个集合中最近的两个样本的距离，容易形成链状结构。
  - 最大距离：两个集合中最远的两个样本的距离，若存在异常值则不稳定complete
  - 平均距离：两个样本中两两距离的平均值average，或者两两距离的平方和ward
- 分裂层次分类：DIANA
  自上向下的策略，先把所有样本作为一个簇，然后不断分裂直到满足终止条件。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)：它将簇定义为密度相连的点的最大集合，能够把具有高密度的区域划分为簇，并可在有“噪声”的数据中发现任意形状的聚类。

使用并查集，关于并查集：
https://cloud.tencent.com/developer/article/1521053
密度最大值聚类：一种简洁优美的聚类算法，可以识别各种形状的类簇，而且参数很容易确定。
谱和谱聚类

方阵作为线性算子，它的所有特征值的全体统称方阵的谱。方阵的谱半径为最大的特征值，矩阵A的谱半径： $A^{T}A$ 的最大特征值。
谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的目的。
过程

其中W的对角元素都为0。

得到L之后，求其特征向量，取前k列特征向量做k均值聚类。
思考：
- 谱聚类中的k如何确定： $k^{*} = arg \max|\lambda_{k+1}-\lambda_{k}|$
- 最后一步k-means的作用：目标函数是关于子图划分指示向量的函数，该向量的值根据子图划分确定，是离散的，该问题是NP问题，转换成求连续实数域上的解，最后用k-means离散化。
- 未正则，对称，随机游走拉普拉斯矩阵优先选择随机游走拉普拉斯矩阵
- 谱聚类可用于切割图/随机游走/扰动论等解释

标签传递算法。(Label Propagation Algorithm, LPA)
- 对于部分样本的标记给定，而大多数样本的标记未知的情形，是半监督学习。
- 将标记样本的标记通过一定的概率传递给未标记样本，直到最终收敛。
高斯混合模型(Gaussian Mixture Model, GMM)

可用于无监督学习中的聚类，与k均值法类似，有两个优点：
- k-means不考虑方差，gmm考虑方差，方差(协方差)决定分布的形状
- k-means执行硬分类，gmm执行软分类，可以输出概率。
随机变量X是有K个高斯分布混合而成，取各个高斯分布的概率为 $\pi_1,\pi_2,\dots,\pi_{k}$ ，第i个高斯分布的均值为 $\mu_{i}$ ，方差为 $\Sigma_{i}$ ，若观测到 $x_1,x_2,\dots,x_{k}$ ，试估计 $\mu,\Sigma,\pi$ 。
$l(\mu,\Sigma,\pi) = \sum_{i=1}^{N}log(\sum_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\Sigma_{k}))$
使用最大期望算法(Expectation-Maximum, EM)求解
- 最常见的隐变量估计方法，在机器学习中有广泛的应用。
- Jensen不等式：若f凸
  $f(\theta x+(1-\theta)y) \leq \theta f(x)+(1-\theta)f(y)$
- 第一步：估算数据来自哪个组份，估计数据由每个组份生成的概率，对于每个样本 $x_{i}$ ，它由第k个组份生成的概率是
  $\gamma(i,k) = \frac{\pi_{k}N(x_{i}|\mu_{k},\Sigma_{k})}{\sum_{j=1}^{K}\pi_{j}N(x_{i}|\mu_{j},\Sigma_{j})}$
  需要先验给定 $\mu,\Sigma$ ， $\gamma(i,k)$ 也可以看成组份k在生成数据 $x_{i}$ 时所做的贡献
- 第二步：估计每一个参数，对于所有的样本点，对于组份k而言，可看成生成了 $\{\gamma(i,k)x_{i}|i=1,2,\dots,N\}$ 这些点，组份k是一个标准的高斯分布：
  $\begin{cases} N_{k} = \sum_{i=1}^{N}\gamma(i,k) \\ \mu_{k} = \frac{1}{N_{k}}\sum_{i=1}^{N}\gamma(i,k)x_{i}\\ \Sigma_{k} = \frac{1}{N_{k}}\sum_{i=1}^{N}\gamma(i,k)(x_{i} -\mu_{k})(x_{i}-\mu_{k})^{T}\\ \pi_{k} = \frac{N_{k}}{N} \end{cases}$
  重复以上步骤直至参数收敛。
- EM 算法具备收敛性，但并不保证找到全局最大值，有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代，取结果最好的那次。

EM算法一般求解过程：
模型选择标准：
- AIC(Akaike Information Criterion) = $-2\ln L+2k$ , k为参数个数
- BIC(Bayes Information Criterion) = $-2\ln L +(\ln n)k$ , n为样本个数
朴素贝叶斯假设：特征独立，同等重要。

推导：
$P(y|x_1,x_2,\dots,x_{n}) = \frac{P(y)P(x_1,x_2,\dots,x_{n}|y)}{P(x_1,x_2,\dots,x_{n})}$
根据样本使用(Maximum A Posteriori)估计P(y)。
$\hat{y} = argmax \ P(y)\prod_{i=1}^{n}P(x_{i}|y)$
高斯朴素贝叶斯（Gaussian Naive Bayes）
$P(x_{i}|y) = \frac{1}{\sqrt{2\pi}\sigma_{y}}exp(-\frac{(x_{i}-\mu_{y})^2}{2\sigma_{y}^2})$
多项分布朴素贝叶斯（Multinomial Naive Bayes）
$\hat{\theta_{yi}} = \frac{N_{yi}+\alpha}{N_{y}+\alpha\cdot n} \quad \begin{cases} N_{yi} = \sum_{i}x_{i}\\ N_{y} = \sum_{i}N_{yi}\\ \end{cases}$
其中， $\alpha=1$ 为拉普拉斯平滑， $\alpha<1$ 为Lidstone平滑。

模型具有发散性：现实中若前提/假设不满足，也可以使用。
文本分类的朴素贝叶斯算法：
$P(c_{i}|\bold{x}) = \frac{P(\bold{x}|c_{i})\cdot P(c_{i})}{P(\bold{x})}$
$P(\bold{x}|c_{i}) = P(x_1|c_{i})P(x_2|c_{i})\dots P(x_{n}|c_{i})$
其中
$P(x_{i}|c_{i}) = \frac{N_{x_{i}}}{N_{c_{i}}} \quad P(\bold{x}) = \frac{N_{x_{i}}}{N} \quad P(c_{i}) = \frac{N_{c_{i}}}{\sum_{i} N_{c_{i}}}$
概率图模型(PGM)分为有向图的贝叶斯网络(Bayesian Network)和无向图的马尔可夫网络(Markov Network)。
贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。
贝叶斯网络又称有向无环图模型，是一种概率图模型，根据概率图的拓扑结构，考察一组随机变量 $\{ X_1,X_2,\dots,X_{n} \}$ ，及其N组条件概率分布的性质。
无环图中的结点表示随机变量，链接两个结点的箭头表示具有因果关系（非独立关系）。
每个结点在给定其直接前驱时，条件独立于其非后继。
示例
全链接贝叶斯网络：每一对结点都有边连接
$P(X=x_1,x_2,\dots,x_{n}) = \prod_{i}P(x_{i}|x_{i+1},x_{i+2},\dots,x_{n})$
形式化定义：
$BN(G,\Theta)$
- G：有向无环图
- G的结点：随机变量
- G的边：结点间的依赖
- $\Theta$ ：所有条件概率分布的参数集合
思考：需要多少个参数确定上述网络？假设每个结点所需的参数个数为M，结点和parent的可取值数目都是K: $K^{M}(K-1)$ 。
当结点形成一条链式网络，称为马尔科夫模型。( $A_{i+1}$ 只与 $A_{i}$ 有关)，例如pLSA主题模型。

Word2Vec：本质上是建立了一个三层神经网络，将所有词都映射为一定长度的向量，取一定的窗口范围作为当前词的领域，估计窗口内的词。
Beta分布:
$B(\alpha,\beta) =\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} \quad \Gamma(n) = (n-1)!$
$\frac{1}{B(\alpha,\beta)}\int x^{\alpha-1}(1-x)^{\beta}dx$
$\frac{1}{B(\alpha,\beta)}\int_0^1 x^{\alpha}(1-x)^{\beta}dx = \frac{B(\alpha+1,\beta)}{B(\alpha,\beta)} = \frac{\alpha}{\alpha+\beta}$
共轭先验分布：
$P(\theta|x) \propto P(x|\theta)P(\theta)$
其中 $P(\theta)$ 为先验概率， $P(x|\theta)$ 为似然概率， $P(\theta|x)$ 为后验概率。

共轭分布：若先验概率和后验概率服从相同的分布，他们就叫做似然概率的共轭分布。例如：

Dirichlet分布

概率分布 $Dir(\vec{p}|\vec{\alpha}) = \frac{1}{\Delta(\vec{\alpha})}\prod_{k=1}^{K}p_{k}^{\alpha-1} \ p_{k}\in[0,1]$
其中
$\Delta(\vec{\alpha}) = \frac{\prod_{k}\Gamma(\alpha_{k})}{\Gamma(\sum_{k}\alpha_{k})} \quad E(p_{i}) = \frac{\alpha_{i}}{\sum_{k}\alpha_{k}}$
$\alpha$ 是参数向量，共K个。定义在 $x_1,x_2,\dots,x_{k-1}$ 维上。
- $x_1+x_2+\dots+x_{k}=1$
- $x_1,x_2,\dots,x_{K-1}>0$
- 定义在K-1维的单纯形上，其他区域的概率密度为0。
对称Dirichlet分布：
$Dir(\vec{p}|\alpha,K) = \frac{1}{\Delta_{K}(\vec{\alpha})}\prod_{k=1}^{K}p_{k}^{\alpha-1}$
其中，
$\Delta_{K}(\vec{\alpha}) = \frac{\Gamma^{K}(\alpha_{k})}{\Gamma(K\cdot\alpha)}$
参数alpha对Dirichlet分布的影响
多项分布的共轭分布是Dirichlet分布

LDA(Latent Dirichlet Allocation)，生成模型，重要主题模型。

其中，
- K为主题个数
- M为文档总数
- $N_{m}$ 是第m个文档的单词总数
- $\beta$ 是每个主题下词的多项分布的Dirichlet先验参数
- $\alpha$ 是每个文档下主题的多项分布的Dirichlet的先验参数
- $Z_{nm}$ 是第m个文档中第n个词的主题
- $W_{mn}$ 是第m个文档中的第n个词
- $\theta$ 是第m个文档下的主题分布，k维(主题数)
- $\phi$ 是第k个主题下的词分布，v维(词数)

计算过程：

其中，
- $n^{(t)}_{k}$ 表示第t个词在topic k中出现的次数
- $n^{(k)}_{m}$ 表示第k个主题在文档m中出现的次数
应用：
- 文本数据特征提取，用于分类回归预测模型
- 聚类分析，提取文档主题信息
- 推荐系统，可用于计算物品的相似度（KL散度）
LDA开源库

sklearn.decomposition.LatentDirichletAllocation/OnlineVB

Gensim OnlineVB:
http://www.cs.columbia.edu/~blei/topicmodeling_software.html

TF-IDF(Term Frequency - Inverse Document Frequency)
计算：TF*IDF，统计方法，TF为词出现的次数/文档中的总词数，IDF为lg(总文档数/出现该词的文档数)。值越大该词的重要程度越高。
卷积神经网络

规则化：白化，去均值
卷积：维度提升，过完备基
非线性映射：稀疏化，边界消除
池化：特征聚集，降维，光
激励函数：主要为了引入非线性，增加拟合效果
Dropout：随机丢掉一部分单元。这一层类似于性别在生物进化中的角色，物种为了适应不断变化的环境，性别的出现有效的防止了过拟合，即避免了环境改变时物种可能面临的灭亡。

隐马尔可夫模型(Hidden Markov Model, HMM)

主要内容
- 概率计算
- 参数估计
- 模型预测
用途
- 标注问题
- 语音识别
- NLP
- 生物信息
- 模式识别
HMM是关于时序的概率模型，描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。
隐马尔可夫模型随机生成的状态随机序列，称为状态序列；每个状态生成一个观测，由此产生的观测随机序列，称为观测序列。
HMM由初始概率分布 $\pi$ ，状态转移概率分布A以及观测概率分布B组成。
$\lambda = (A,B,\pi)$
I是长度为T的状态序列，O是对应的观测序列。
$I=\{i_1,i_2,\dots,i_{T}\} \quad O = \{o_1,o_2,\dots,o_{T}\}$
A是状态转移概率矩阵：
$[a_{ij}]_{N\times N}$
其中， $a_{ij} =P(i_{t+1}=q_{j}|i_{t}=q_{i})$ ， $a_{ij}$ 是在时刻t处于状态 $q_{i}$ 的条件下时刻t+1转移到状态 $q_{j}$ 的概率。
$B$ 是观测矩阵：
$B[b_{ik}]_{N\times M}$
其中， $b_{ik} = P(o_{t}=v_{k}|i_{t}=q_{i})$ ， $b_{ik}$ 是在时刻t处于状态 $q_{i}$ 的条件下生成规则 $v_{k}$ 的概率。
$\pi$ 是初始状态概率向量， $\pi = (\pi_{i})$ ，其中 $\pi_{i} = P(i_{1}=q_{i})$ ， $\pi_{i}$ 是时刻t=1处于状态 $q_{i}$ 的概率。
HMM的两个基本性质：
- 齐次假设：
  $P(i_{t}|i_{t-1},o_{t-1},i_{t-2},o_{t-2},\dots,t_1,o_1) = P(i_{t}|i_{t-1})$
- 观测独立性假设：
  $P(o_{t}|i_{T},o_{T},i_{T-1},o_{T-1},\dots,t_1,o_1) = P(o_{t}|i_{t})$
HMM三个基本问题：
- 概率计算问题：前向-后向问题 —— 动态规划
  给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=\{o_1,o_2,\dots,o_{T}\}$ ，计算模型 $\lambda$ 下观测序列O出现的概率 $P(O|\lambda)$
- 学习问题：Baum - Welch算法(状态未知) —— EM
  已知观测序列 $O=\{o_1,o_2,\dots,o_{T}\}$ ，估计模型 $\lambda = (A,B,\pi)$ 的参数，使得在该模型下观测序列 $P(O|\lambda)$ 最大
- 预测问题：Viterbi算法 —— 动态规划
  解码问题，已知观测序列 $O=\{o_1,o_2,\dots,o_{T}\}$ ，和模型 $\lambda = (A,B,\pi)$ ，求给定观测序列条件概率 $P(O|\lambda)$ 最大的状态序列I。