NLP --- > LDA-EM-SVM

最新推荐文章于 2023-04-13 09:39:13 发布

chencas

最新推荐文章于 2023-04-13 09:39:13 发布

阅读量301

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/chencas/article/details/92722740

版权

nlp 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

algorithm-LDA-EM-SVM

文章目录

algorithm-LDA-EM-SVM
EM
- 混合高斯模型
SVM原理推导
LDA

标签（空格分隔）： EM LDA SVM

在此输入正文

EM

incomplete data distribution
$P(Y|\theta)$
complete data distribution
$P(Y,Z|\theta)$
求解目标MLE,maximun likelihood estimate
$logP(Y,Z|\theta))=\sum_i^nlog\sum_{z_i}P(x^i,z^i|\theta)>=\sum_i \sum_{z^i} Q(z^i)log \frac{P(x^i,z^i|\theta)}{Q(z^i)}$
$Q(\theta,\theta^i)=\sum_Z logP(Y,Z|\theta)P(Z|Y,\theta^i)$

具体而言
https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm

写出完全数据的概率 $P(Y,Z|\theta)$ ,比如隐含量Z为性别男女，变量Y为身高，身高的分布为高斯分布 $(u,\delta^2)$ ,还有男女的分布 $T_i$

附加知识：

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布^

EM algorithm

输入：观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|\theta),条件分布P(Z|Y,\theta);

输出：模型参数

\theta

(1)选择参数的初值

\theta^(0)

,开始迭代\
(2)E步:记

\theta^i为第i次迭代参数\theta的估计值，在i+1次迭代中的E步中，计算

Q(\theta,\theta^i)=E_Z[logP(Y,Z|\theta)|Y,\theta^i]\\ =\sum_ZP(Z|Y,\theta^i)logP(Y,Z|\theta)

(3)M步：求使得Q(\theta,\theta^i)极大化的\theta,当确定第i+1次迭代的参数的估计值\theta^{i+1}

\theta^{i+1}=argmax_{\theta}Q(\theta,\theta^i)

重 复 第 (2) 步 和 第 (3) 步, 直 到 收 敛

Q函数

完全数据的对数似然函数logP(Y,Z|\theta)关于在给定观测数据Y和\\当前参数\theta_i下对未知观测数据Z的条件概率分布P(Z|Y,\theta_i)的期望称为Q函数，即

Q(\theta,\theta^i)=E_Z[logP(Y,Z|\theta)|Y,\theta^i]

EM algorithm

E step:对于每个i

Q^i(z^i)=p(z^i|y^i,\theta)

M step

\theta=argmax_{\theta}\sum_{i=1}^n\sum_{z^i}Q^i(z^i)log{\frac{p(z^i,y^i;\theta)}{Q^i(z^i)}}

但如果要是jensen不等式成立，须有

\frac{p(z^i,y^i;\theta)}{Q^i(z^i)}=c，即为一常数\\ 得到Q^i(z^i)=p(z^i|y^i,\theta)

上述两个EM algorithm中，并不矛盾，实质都first calculate the $P(z_{ik}|y_i,\theta^i)$

混合高斯模型

整个数据集的各模型的比例
与特定数据的各模型比例是造成数据更新的原因!

高斯混合模型

具有如下形式的概率分布模型：

P(y|\theta)=\sum_{k=1}^K \alpha_k\phi(y|\theta_k)

其中$\alpha_k为系数，\sum_{k=1} ^{K\alpha_k=1;\phi(y|\theta_k)是高斯分布密度，\phi_k=(\mu_k,\sigma_k}2)\$

\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(y-\mu_k)^2}{2\sigma_k^2})

为第k个分模型；

明确隐变量，完全数据的对数似然函数
$第j个观测数据来自地k个分模型，r_{jk}=1,否侧r_{jk}=0$
$完全数据是(y_i,r_{j1},r_{j2},r_{j3},...,r_{jK}),j=1,2,3,...,N$
EM算法E步，确定Q函数，然后需要计算 $E(r_{jk}|y,\theta)，记为\hat r_{jk}$
$\hat r_{jk}=E(r_{jk}|y,\theta)=\frac{\alpha_k\phi(y_k|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_i|\theta_k)},j=1,2,3,...,N;k=1,2,...,K$
$\hat r_{jk}为分模型k对观测数据y_i的响应度。$
M步
$\theta^{i+1}=arg max_{\theta}Q(\theta,\theta^i),分别求导可得到$
$\hat \mu_k=\frac{\sum_{j=1}^N\hat r_{jk}y_k}{\sum_{j=1}^N\hat r_{jk}},k=1,2,...,K\\ \hat \sigma_k^2=\frac{\sum_{j=1}^N\hat r_{jk}(y_i-\mu_k)^2}{\sum_1^N \hat r_{jk}},k=1,2,...,K\\ \alpha_k=\frac{n_k}{N}=\frac{\sum_{j=1}^N\hat r_{jk}}{N},k=1,2,...,K\\ 重复上述过程直至对数似然函数值不在有明显的变化$

summary

关键是数据整个模型的隐含量的概率值，和相对于每一个数据的隐含量的概率值直接的变换求解，附带求出整个模型的均值和方差
Expection: 即第n个序列来自第k个模型的概率，即为期望
Maxinum: 即由Expection得到的概率去求模型参数，以使得Q函数最大

参考：李航<统计学习方法>

refrence:

https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
http://blog.163.com/huai_jing@126/blog/static/17186198320119231094873/

SVM原理推导

标签（空格分隔）：未分类

##策略是最大间隔分离超平面
$\max_{w,b}\; r\\s.t.\;\;y_i(\frac{w}{||w||.x_i}+\frac{b}{||w||})>=r,\;i=1,2,...,N\\$ 进一步由几何间隔和函数间隔的关系可得
$\min_{w,b}\frac{1}{2}||w||^2\\s.t.\;y_i(w\cdot x_i+b)-1>=0$
转为拉格朗日函数(原始问题:广义拉格朗日函数的极小极大问题)
$\min_{w,b} max_{\alpha}\;\;\;f(w,b,\alpha)=\frac12||w||^2+\sum_i^N \alpha_i(1-y_i(w\cdot x_i+b)) \\s.t.\;\alpha_i>=0$
其对偶问题:广义拉格朗日函数的极大极小问题
$\max_\alpha\min_{w,b}f(w,b,\alpha)=\frac12||w||^2+\sum_i^N \alpha_i(1-y_i(w\cdot x_i+b)) \\s.t.\;\alpha_i>=0$

定理

假设 $f(x),c_i(x),h_j(x)$ 是定义在R^n上的连续可微函数。考虑约束最优化问题
$\min_{x\in R^n}\;f(x)\\s.t.\\c_i(x)\leq0,\;i=1,2,\cdots,k\\h_j(x)=0,\;j=1,2,\cdots,l$
定理C.1 若原始问题和对偶问题都有最优值，则 $d=\max_{\alpha,\beta:\alpha_i\geq0}\min_xL(x,\alpha,\beta)\leq\min_xmax_{\alpha,\beta:\alpha_i\geq0}L(x,\alpha,\beta)=p$
定理C.2： $考虑原始问题和对偶问题，假设函数f(x)和c_i(x)是凸函数，h_j(x)是仿射函数；并且不等式约束c_i(x)\\是严格可行的，即存在想，对所有i有c_i(x)<0,则存在x,\alpha,\beta,使得x是{\bf原始问题的解}，\alpha,\beta，是{\bf对偶问题的解}，\\并且p=d=L(x,\alpha,\beta)$
定理C.3
$x和\alpha,\beta分别是原始问题和对偶问题的解的充分必要条件是x,\alpha,\beta，满足下面KKT条件$ $KaTeX parse error: Undefined control sequence: \h at position 196: …,i=1,2,...,k \\\̲h̲_j(x)=0,j=1,2,.…$

由以上定理可知原始问题和对偶问题解相同，并且满足KKT条件
求对偶问题的内层 $\min_xL(x,\alpha,\beta)$
将拉格朗日函数分别对w,b求偏导数并令其为0
$\nabla_wL(w,b,\alpha)=w-\sum_{i=1}^{N}\alpha_iy_ix_i=0\\\nabla_bL(w,b,\alpha)= \sum_{i=1}^{N}\alpha_iy_i=0\\w=\sum_{i=1}^N\alpha_iy_ix_i,\sum_{i=1}^N\alpha_iy_i=0\\代入L(w,b,\alpha)=\frac12||w||^2+\sum_i^N \alpha_i(1-y_i(w\cdot x_i+b))\\可得到L(w,b,\alpha)=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$

引入对偶算法的优点:

对偶问题往往更容易求解；
自然引入核函数，进而推广到非线性分类问题

求解 SMO算法

SVM的学习问题可以形式化为求解凸二次规划问题。这样凸二次规划问题具有全局最优解。SMO算法是相对比较高效用于这一问题的求解。
求解的问题为

$\min_\alpha\; \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N\alpha_i \\ s.t.\; \sum_{i=1}^N\alpha_iy_i=0 \\ 0\leq\alpha_i\leq C,i=1,2,...,N$

这个问题，变量是朗格朗日乘子。一个变量 $\alpha_i$ 对应一个样本点 $x_i,y_i)$ ;变量的总数等于训练样本的容量N.
SMO是启发式算法，如果所有变量满足KKT条件，那么最优化问题的解得到了。
SMO算法包括两个部分，求解两个变量的二次规划的解析方法和选择变量的启发式方法。
- 第一个变量的选择：违法KKT条件最严重的样本点 $\alpha_1$ 。
- 第二个变量的选择：希望能使得 $\alpha_2$ 有足够大的变化。

输入： $训练数据集T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)},其中，x_i\in {\bf R}^N，y_i\in y=\{-1,+1\},i=1,2,...,N,\\精度\epsilon;\\ 输出：近似解\hat{\alpha}.\\ (1)取近似值\alpha^{(0)}=0,令k=0;\\(2) 选去优化变量\alpha_1^{(k)},\alpha_2^{(k)}，求解两个变量的最优化问题，求得最优解\alpha_1^{(k+1)},\alpha_2^{(k+1)}，更新\alpha为\alpha^{(k=1)}；\\ (3) 若能在精度\epsilon 范围内满足停机条件$ $\sum_{i=1}^N\alpha_iy_i=0\\0\leq \alpha_i\leq C,i=1,2,...,N$ $y_i\cdot g(x_i)=\left\{{\geq1,\{x_i|\alpha_i=0\}\atop =1,\{x_i|0<\alpha_i<C\},\leq 1,\{x_i|\alpha_i=C\}} \right.$ 其中 $g(x_i)=\sum_{j=1}^N\alpha_jy_jK(x_j,x_i)+b$ $则转（4）;否则令k=k+1,转（2）；\\（4）取\hat{\alpha}=\alpha^{(k+1)}$ ## 仿射函数>仿射函数即由1阶多项式构成的函数，一般形式为 f (x) = A x + b，这里，A 是一个 m×k 矩阵，x 是一个 k 向量,b是一个m向量，实际上反映了一种从 k 维到 m 维的空间映射关系。

LDA

标签（空格分隔）： LDA 优化算法 BFGS EM

首先设定LDA隐含变量主题的个数N
对于一遍文档D,其包含的主题分布很多，当设定一共有三个主题时，比如有以下两个分布 $0.2*z_1+0.3*z_2+0.5*z_3,0.3*z_1+0.4*z_2,0.3*z_3,...$ ；但是每个分布出现的概率又是不同的，也会呈现一定的分布，该分布即为dirichlet分布；
- 上述dirichlet分布只有一个参数 $\alpha$ ,称为concentration parameter（集中参数），当 $\alpha$ 远小于1时，该分布集中在少数的几个（分布）中，但 $\alpha$ 远大于1时，所有的分布的分布比较均匀；
根据dirichlet分布sample一个主题的分布如 $0.2*z_1+0.3*z_2+0.5*z_3$ ，即为该篇文档的主题分布；
针对某一个word,是由其中一个对应的主题生成如 $t_1$ （隐变量）；生成过程是将主题分布sample出该主题，同时，该主题下有单词的分布， $0.1*w_1+0.2*w_2+0.3*w_3+0.4*w_4，0.2*w_1+0.2*w_2+0.2*w_3+0.4*w_4$ ,单词分布是由参数为 $\beta$ 的dirichlet分布生成，sample出 $0.1*w_1+0.2*w_2+0.3*w_3+0.4*w_4$ ,然后在由这个多项式采样生产word;

LDA与PLAS区别

PLSA的主题分布和主题下的词分布是唯一确定的
LDA中主题分布和词分布不是确定的（随机变量）
LDA是PLSA的贝叶斯版本，文档生成后，两者都要根据文档去推断主题分布和词语分布（本质都是为了估计给定文档生产主题，给定主题生成词语的概率），只是用的参数推断方法不同。plsa用极大似然估计去推断两未知参数，LDA把两参数随机变量，且加入dirichlet先验。估计参数前者是频率，后者是贝叶斯派思想。

LDA本质就是PLSA加上贝叶斯框架，即利用本次数据对先验信息进行修正，并把信息保留下来，然后可以丢掉这部分数据，是一个增量式的学习。
为什么dirichlet分布
: 1.多项式分布概率的概率就是dirichlet分布；
2.dirichlet分布是多项式分布的共轭先验分布（共轭是形式保持不变），也就是说，先验分布信息+样本信息=后验分布信息
$Dir(p|\theta)+Multicount(m)=Dir(p|\theta+m)$
3. 经过增量式学习后，dirichlet分布形式保持不变，利于计算。

求解

初始时根据先验随机地给每个单词分配主题。然后计算5个数据，

BFGS 算法

$B_{k+1}=B_{k}+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$

$$H_{k}\delta_k=y_k\
令B_{k+1}=H_k\
得到B_{k+1}=B_k+\alpha UU^T+\beta VV^T\
\alpha UU^T\delta_k=y_k 令U=y_k,\alpha=\frac{1}{y_k^T\delta_k}\$$ $B_k\delta_k=-\beta VV^T\delta_k,令B_k\delta_k=V,可得\beta=-\frac{1}{\delta_k^TB_k^T\delta_k}$ 所以有
$B_{k+1}=B_k+\frac{1}{y_k^T\delta_k}y_ky_k^T-\frac{1}{\delta_k^TB_k^T\delta_k}B_k\delta_k\delta_k^TB_k^T$

$1, 初始化B0为单位矩阵，初始点x0\\ 2，求点x_k(k=0,1,2,3...)处的一阶导数，二阶导数\\ 3，根据B_{k}(x_{k+1}-x_k)=g_{k+1}-g_k公式，因为拟合的时候按二次曲线进行拟合，\\然后令g_{k+1}=0时有B_{k}(x_{k+1}-x_k)=-g_k时，计算x_{k+1}的值多少\\ 4，因为是按照二次进行拟合，在跨度x_k到x_{k+1}之间原方程有可能已经达到最小，\\所以要进行搜索，搜索分为精确搜索和Armijo搜索，其中前者浪费大量的资源，为了更有效,\\选择使用Armijo搜索\\ 5, 更新一个新的X_{k+1},其作为新的x_k，为了进一步利用步骤3进一步处理，根据下述的修正公式计算下一个B_{k+1},然后计算x_{k+1},这一迭代$