Classification I: KNN , Naive Bayes(待整理)
算法步骤:
step.1---初始化距离为最大值
step.2---计算未知样本和每个训练样本的距离dist
step.3---得到目前K个最临近样本中的最大距离maxdist
step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本
step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完
step.6---统计K-最近邻样本中每个类标号出现的次数
step.7---选择出现频率最大的类标号作为未知样本的类标号
优点:
Classification II: Naive Bayes
朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
Classification III : HMM
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
Classification IIII: DT
Classification IIIII:ANN
Whatis the biological motivation of ANN?
模仿基于分布式表示的并行计算
Whendoes ANN work?
实例以键值对的形式表示;
样本集可能有错误;
较长的训练时间可以被接受;
不要求解释学习到的模式。
3What is aperceptron
感知器是简单的单层二元分类器,通过线性边界划分输入空间。
How to train a perceptron?
通过梯度下降算法不断优化w直到终止条件被满足(如误差小于某个阈值或者迭代次数大于某个阈值)
What is the limitation ofperceptrons?
不能够处理非线性问题
How does ANN solve non-linearlyseparable problems?
增加隐含层
What is the key idea ofBackpropogation algorithm?
权重的修改是从后向前的,即由输出层,经由每个隐含层,到第一个隐藏层。
What are the main issues of BPnetworks?
容易陷入局部最优点;
过拟合;
学习率不易选择:太小收敛速度慢且易陷入局部最优点,太大则会震荡摆动。
What are the examples of other typesof ANN?
Elman Network,HopfieldNetwork.
ClassificationVI:SVM
SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.
SVM的主要思想是针对两类分类问题,寻找一个超平面作为两类训练样本点的分割,以保证最小的分类错误率。在线性可分的情况下,存在一个或多个超平面使得训练样本完全分开,SVM的目标是找到其中的最优超平面,最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面
对于线性不可分的情况,通过使用核函数(一种非线性映射算法)将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分。
优点
Svm:算法可最终转化为凸优化问题,因而可保证算法的全局最优性,避免了神经网络无法解决的局部最小问题;
支持向量机有严格的理论和数学基础,避免了神经网络实现中的经验成分.
缺点
(1) SVM算法对大规模训练样本难以实施
(2) 用SVM解决多分类问题存在困难