摘要
因为无标签和高维数据的不断增长,无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵,所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音,无法完全依赖于相似性矩阵。因此,本文提出一种无监督特征选择的方法能够有效选择特征,同时我们构造的相似性矩阵,能够从数据中获得更精确的有用信息。
相关工作
现有方法的问题:
- 不可靠的相似矩阵
- 近邻分配不当
方法论–SOGFS
1 数据集X,相似性矩阵S,原始目标函数:
2 样本与样本之间的差异载乘上相似性矩阵,同时对相似性矩阵乘上正则化参数作为约束
3 引入拉普拉斯矩阵,用来反映特征对数据集的局部保存特征 同时拉普拉斯矩阵的秩为n-c,这里的c表示连接部分,也就是相关性强的部分
4 再引入W矩阵,XW作为线性连接,且W为稀疏矩阵
这样对原始数据进行了两次筛选,对数据进行权重的设定,选择出较优的样本后,计算图结构,提取结构特征
优化算法
1 利用拉格朗日的KTT条件,构造需要迭代优化求解的目标函数
2 固定S更新W
3 固定S更新F
4 固定W和F更新S
不断迭代直到收敛
关于参数的设置:aifa表示样本邻居的数目
邻居的数目是对样本按照从高到低的顺序依次排序的结果
论文链接:链接:http://pan.baidu.com/s/1mi80dtu 密码:gymm