数据挖掘－分类：其它技术（二）

最新推荐文章于 2022-05-29 22:07:26 发布

数据出境研究所

最新推荐文章于 2022-05-29 22:07:26 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘网络算法任务生物优化

本文链接：https://blog.csdn.net/charcle/article/details/2491674

版权

数据挖掘专栏收录该内容

11 篇文章 0 订阅

订阅专栏

四.人工神经网络
人工神经网络的研究是由试图模拟生物神经系统而激发的.
1.感知器
感知器包含两种结点:输入结点,用来表示属性;一个输出结点,用来提供模型输出.在感知器中,每个输入结点都通过一个加权的链接到输出结点,这个加权的链用来模拟神经元间神经键连接的强度.感知器对输入加权法求和,再减去偏置因子t,然后考察结果的符号,得到输出值y.
2.多层人工神经网络
人工神经网络结构比感知器模型更复杂，这些额外的复杂性来源于多个方面：
×网络的输入层和输出层之间可能包含多个中间层，这些中间层叫作隐藏层，隐藏层中的结点称为隐藏结点，这种结构称为多层神经网络。在前馈神经网络中，每一层的结点仅和下一层的结点相连。在递归神经网络中，允许同一层结点相连或一层结点连到前面各层中的结点。
×除了符号函数外，网络还可以使用其它激活函数。如线性函数，Ｓ型函数等。
（１）要学习ＡＮＮ模型的权值，需要一个有效的算法。一般采用基于梯度下降的神经网络权值学习方法。
（２）ＡＮＮ学习中的设计问题
×确定输入层的结点数目。
×确定输出层的结点数目。
×选择网络拓扑结构。
３人工神经网络的特点
（１）至少含有一个隐藏层的多层神经网络是一种普适近似，即可以用来近似任何目标函数。
（２）ＡＮＮ可以处理冗余特征，因为权值在训练过程中自动学习。冗余特征的权值非常小。
（３）神经网络对训练数据中的噪声非常敏感。
（４）ＡＮＮ权值学习使用的梯度下降方法经常会收敛到局部最小值。
（５）训练ＡＮＮ是一个很耗时的过程，特别是当隐藏结点数量很大时，然而，测试样例分类时非常快。
五。支持向量机
支持向量机有一个独特的特点，它使用训练实例的一个子集来表示决策边界，该子集称作支持向量。
１。最大边缘超平面
考虑两个决策边界Ｂ１和Ｂ２，每个决策边界都对应着一对超平面，超平面是这样得到的：平移一个和决策边界平等的超平面，直到触到样本为止，这两个超平面之间的间距称为分类器的边缘，边缘最大的决策边界称为最大边缘超平面。具有较大边缘的决策边界比那些具有较小边缘决策边界有更好的泛化误差。
２。线性支持向量机：可分情况
一个线性ＳＶＭ是这样一个分类器，它寻找具有最大边缘的超平面，因些它也经常被称为最大边缘分类器。
×线性决策边界
一个线性决策边界可以写成如下形式：w.x+b=0，其中x为训练样本点的属性集，w,b是模型的参数。对于在决策边界上面的训练样本,其属性集为x，可以证明w.x+b=k(k>0)。对于决策边界下面的训练样本，其属性集y,可以证明w.y+b=k(k<0)。
×线性分类器的边缘
平行于决策边界移动的超平面，直到接触训练集中的样本点为止，两个超平面之间的部分称为分类器的边缘。
如果两个超平面为w.x+b=-1,w.x+b=1，那么决策边界的边缘由这两个超平面之间的距离来给定：d=2/||w||.
×学习线性ＳＶＭ模型
最大边缘化等价于最小化下面的目标函数：f(w)=||w||的平方/2。可以利用拉格朗日乘子来计算。
３。线性支持向量机：不可分情况
在一训练数据集中，有一些样本可能是训练数据集中的噪声，如果在上面给出的决策边界a不能正确的分类噪声，设存在一个可以正确分类噪声的决策边界b,但a的边缘比b的边缘大，所以不能说b是比a更好的决策边界。上面给出的ＳＶＭ公式只能构造没有错误的决策边界，本节利用一种称为软边缘的方法，学习允许一定训练错误的决策边界。
４。非线性支持向量机
本节提出了一种把ＳＶＭ应用到具有非线性决策边界数据集上的方法。这里的关键在于将数据从原先的坐标空间x变换到一个新的坐标空间f(x)中，从而可以在变换后的坐标空间使用一个线性的决策边界来划分样本。进行变换后，就可以应用上一节介绍的方法在变换空间中找到一个线性的决策边界。
×属性变换
如果一个数据集，所有的圆圈都聚集中图的中心附近，而所有的方块都分布在离中心较远的地方。那么数据集的边界可以用一个圆来表示，我们可以通过坐标变换，将所有的圆圈都位于图的左下方，因此，可以构建一个线性的决策边界，从而把数据划分到各自所属的类中。
×学习非线性ＳＶＭ模型
非线性ＳＶＭ的学习任务和线性ＳＶＭ很相似，主要的区别在于，学习任务是在变换后的f(x)上，而不是在原属性x上进行。同样可以用拉格朗日算子来进行。
５。支持向量机的特征
×ＳＶＭ学习问题可以表示为凸优化问题，因此可以利用已知的有效算法发现目标函数的全局最小值。
×ＳＶＭ通过最大化决策边界的边缘来控制模型的能力。
×通过对数据中每个分类属性值引入一个哑变量，ＳＶＭ可以应用于分类数据。
×本节所给出的ＳＶＭ公式表述是针对二类问题的。