结构正则化的自适应无监督特征选择_自适应特征选择-CSDN博客

结构正则化的自适应无监督特征选择
现状：
大规模的实际数据通常是收集的没有标签，无监督的特征选择已经成为一种无处不在且具有挑战性的问题。在进行无监督特征选择时，需要准确的保持其固有的结构。
问题：
在进行无监督特征选择的根本问题在于：如何描述原始特征空间的几何结构，并生成一个忠实的特征子集，从而准确地保持固有结构。
本文的解决方法：
（1）通过重构非负权图，刻画了每个邻域的固有几何结构，并对其拉普拉斯矩阵进行秩约束，实现了一个理想邻域分配。
（2）在不进行正则化的情况下，引入了一个选择矩阵，并与自适应重构图同时学习了最优特征子集。
（3）通过对算法收敛性和计算复杂度的理论分析，提出了一种有效的替代优化算法。
过程：
利用自适应重建权图，建立了一种新的无监督特征选择模型。该方法将变换矩阵替换为选择矩阵，并将自适应重构图纳入特征选择过程。一：选择矩阵：
定义：为了在特征选择过程中指定所选的特征，我们在传统的运输矩阵中设置了一个可解释的结构来指定所选的特征；WI确实是一个列全秩变换矩阵，原始特征选择过程表示为将d维数据点x转换为m维数据点y。
优点：第一个：首先，由于极度的稀疏[55]，使得特征选择算法的速度更快；第二个：其次，基于WI的特征选择结果比一般的变换矩阵更易于解释；最后：该结构不必要地对变换矩阵进行了基于规范的正则化，显式地避免了代价昂贵的参数调优问题
二：重构图的结构正则化：对于理想的邻居分配，贡献权重V应该被约束，使图G = (X, V)的连通分量等于c。
优点：一方面，明确地考虑了图G的结构，通过自适应地分配每个数据点的邻居，潜在地学习到最优的局部几何结构。另一方面，该模型没有使用预先确定的权值矩阵V来描述整个特征空间的固有流形结构，而是尝试同时学习贡献权值和最有信息量的特征子集。
利用一种有效的替代优化算法来解决
一：优化Q：分配图G的一个向量中的每个数据点，并将所有向量集合成矩阵Q。由当前拉普拉斯矩阵LV的c特征向量构成。
二：优化WI：与固定变量V和Q,优化问题(10)转向寻求特征子集FI⊂F对变量通过解决以下问题。
三：优化V：当变量WI和Q固定时，优化问题(10)对于稀疏权值矩阵V变为以下问题。加速投影梯度(APG)算法基础上，引入辅助变量z。
两种算法：APG算法在理论和实验上都是收敛的，我们论证了算法2中提出的无监督特征选择的整体备选优化算法，其中通过求解基于LLE的优化问题(1)计算初始权值矩阵V0。
APG：双变量的二次逼近模型；交替求解的；
优化算法：1 利用拉格朗日的KTT条件，构造需要迭代优化求解的目标函数；2 固定S更新W ；3 固定S更新F ；4 固定W和F更新S
不断迭代直到收敛算法2中的交替更新规则单调地降低了每次迭代中优化问题的目标函数值，直到收敛。
实验：
为了公平地比较，我们遵循了以前关于无监督特征选择的工作，并评估了我们提出的ANFS在一些基准数据集上的聚类性能，包括人脸识别、人体运动识别和手写数字识别。
八个数据集，划分为五个子集，选择一个子集进行测试，剩余的子集参数学习最优的参数，对于所选择的特征，我们独立地重复k-means聚类50次，与方差一起报告平均结果。此外，c被设置为每个数据集的真实类数。根据经验，所有数据集的最近邻K的大小被设置为5。
比较算法：为了说明我们提出的ANFS用于特征选择的有效性，我们将其与一个基线和几个非监督特征选择方法进行了比较。
表一：原始数据。
表二和表三：两个流行的评价指标，即聚类精度(clustering accuracy, ACC)和归一化互信息(mutual information, NMI)，来衡量各种非监督特征选择后聚类的性能。聚类精度：要演示结构正规化对重构图的有效性，我们也设置该模型λ= 0(8)和学习最优特征子集通过解决以下优化问题；归一化互信息：为了说明不同初始化局部重构系数V对算法性能的影响，我们还报告了随机初始化V的ANFS的实验结果，即ANFS (RI)。
表四和表五：以确保我们的改善显著,我们给非参数双向Wilcoxon测试表IV和v .我们计算相互曾帮工的假定值的方法,并设置意义α= 0.05的水平。从表4和表5的结果可以看出，我们的方法在统计学上取得了显著的改进。
表六：为了验证模型的有效性，我们还在表VI中报告了不同特征选择算法对不同数据集的速度。
图一：参数灵敏度：不同数据集上的性能变化是不同的。从结果可以看出，不同数据集上的性能变化是不同的。如何确定参数的最优值取决于数据。这说明我们需要使用交叉验证来为每个数据集选择最佳参数。
图二：收敛性研究：为了求解目标函数，我们开发了一种高效的迭代算法。正则化参数λ为1,这是一个调谐范围的中值。可以得到，所提出的算法在20次迭代中收敛数据集，验证了该算法的有效性和快速收敛性。
结论：
资料：
监督学习（supervised learning）：
通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中，我们在很小的时候就被大人教授这是鸟啊，那是猪啊，这个是西瓜、南瓜，这个可以吃、那个不能吃啊之类的，我们眼里见到的这些景物食物就是机器学习中的输入，大人们告诉我们的结果就是输出，久而久之，当我们见的多了，大人们说的多了，我们脑中就会形成一个抽象的模型，下次在没有大人提醒的时候看见别墅或者洋楼，我们也能辨别出来这是房子，不能吃，房子本身也不能飞等信息。上学的时候，老师教认字、数学公式啊、英语单词等等，我们在下次碰到的时候，也能区分开并识别它们。这就是监督学习，它在我们生活中无处不在。
**无监督学习（unsupervised learning）：**我们事先没有任何训练数据样本，需要直接对数据进行建模。比如我们去参观一个画展，我们对艺术一无所知，但是欣赏完很多幅作品之后，我们面对一幅新的作品之后，至少可以知道这幅作品是什么派别的吧，比如更抽象一些还是更写实一点，虽然不能很清楚的了解这幅画的含义，但是至少我们可以把它分为哪一类。再比如我们在电影院看电影，对于之前没有学过相关电影艺术知识的我们，可能不知道什么是一部好电影，什么是一部不好的电影，可是在观看了很多部电影之后，我们脑中对电影就有了一个潜在的认识，当我们再次坐在电影院认真观看新上映的电影时，脑中就会对这部电影产生一个评价：怎么这电影这么不好啊，整个故事线是混乱的，一点也不清晰，比我之前看过的那些电影差远了，人物的性格也没有表现出来，关键是电影主题还搞偏了；哎呀，这个电影拍得确实好啊，故事情节和人物性格都很鲜明，而且场景很逼真，主角的实力表演加上他与生俱来的忧郁眼神一下把人物演活了。
半监督学习：
部分数据是有标签的，但大部分没有标签，是一种监督式和非监督式学习的手段都可以使用的学习方法。
判别有监督学习和无监督学习：
是否为有监督需要看输入的数据是否含有标签（label）。数据含有标签，为有监督；不含有标签，为无监督；生成模型：由数据学习联合概率分布，然后求出条件概率分布作为预测的模型。即给定x产生出y的生成关系。判别模型：由数据直接学习决策函数或者条件概率分布作为预测模型。给定x应该预测什么样的输出y。
正则化：
是一种非常实用的减少方差的方法，正则化时会出现偏差方差权衡问题，偏差可能略有增加。如果网络足够大，增幅通常不会太高。人们通常会用交叉验证集的方式来选择正则化参数：λ。
非监督式学习问题可以进一步分为聚类问题和关联问题：
聚类问题：聚类学习问题指的是我们想在数据中发现内在的分组，比如以购买行为对顾客进行分组。
关联问题：关联问题学习问题指的是我们想发现数据的各部分之间的联系和规则，例如购买X物品的顾客也喜欢购买Y物品。
一些流形的非监督式学习算法的例子：聚类问题的k-means算法；关联规则学习问题中的Apriori算法。
无标签数据：
训练时要给你的数据加标签，让机器去学习模型。比如一张图片，里边有个苹果，你要给标注这是一个苹果。而到测试时，就要给一堆图片，里边可能是有梨，有橘子，有其他的水果等等，这时候我们不给机器贴上标签，让机器自己去识别这是一个什么水果。无监督特征选择模型：因为无标签和高维数据的不断增长，无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵，所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音，无法完全依赖于相似性矩阵。
邻近算法：
或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。重构权值：LLE是局部几何的特征通过线性系数来重建每个数据的性质从它的邻居点。稀疏性：是指大多数信道系数的能量较小,而几个能量较大的抽头分布相隔较远。