SVM&TSVM&LSA(I)→PLSA(I)→LDA→HDP
SVM(用于监督学习)
- 参考文章:SVM(支持向量机)详解
通俗来讲,SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
高维空间的小样本学习。SVM解决问题的时候,和样本的维数是无关的。寻求经验风险与置信风险的和最小,即结构风险最小。
但是当某些点出现间隔比1小的情况时(这些点也叫离群点),意味着我们放弃了对这些点的精确分类,而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处,那就是使分类面不必向这些点的方向移动,因而可以得到更大的几何间隔(在低维空间看来,分类边界也更平滑)。把损失加入到目标函数里的时候,就需要一个惩罚因子(cost,也就是libSVM的诸多参数中的C)。 - 参考文章:SVM入门(十)将SVM用于多类分类
DAG SVM方法,如果类别数是k,则只调用k-1个,分类速度飞快,且没有分类重叠和不可分类现象。缺点:对下面每一层的分类器都存在错误向下累积的现象。 - 更多参考文章
- 直推式SVM(TSVM)参考文章:S3VM和TSVM的不同
半监督学习,因为学习一个定义在整个输入空间直推式规则,也称为半监督SVM(S3VM)。
PLSA
- 参考文章:PLSA详解
PLSA中关心的就是每篇文章中的每个主题的分布,和每个主题下单词的分布。
EM的目的就是为了找出具有隐式变量的最大似然度的解。拉格朗日余项的作用。
参考EM算法原理详解与高斯混合模型 参考文章:TopicModel主题模型 - Unigram、LSA、PLSA主题模型详解
LSA(I)→PLSA(I)→LDA→HDP
PLSA样本随机,参数虽未知但固定,属于频率派思想;LDA样本固定,参数未知但不固定,是个随机变量,服从一定的分布,LDA属于贝叶斯派思想。
PLSA是一种词袋方法。
EM算法不保证一定能找到全局最优值。参考文章:LDA-math-认识Beta/Dirichlet分布(1)(2)(3)√
P(p|m1,m2)=pm1(1−p)m2∫10tm1(1−t)m2dt , ∫10tm1(1−t)m2dt 分部积分−→−−−−∫10tm1(1−t)m2dt=1m1+1∫10(1−t)m2d(tm1+1)=m2m1+1∫10tm1+1