算法的鲁棒性

最新推荐文章于 2024-06-03 17:19:15 发布

半城烟雨半城花

最新推荐文章于 2024-06-03 17:19:15 发布

阅读量1w

点赞数 1

分类专栏：算法文章标签：算法

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在机器学习领域，总是看到“算法的鲁棒性”这类字眼，比如这句--L1范数比L2范数鲁棒。

“鲁棒”的英文是robustness，其是一个特别大的研究领域。最权威的著作当属稳健统计的2本厚书文献[1]和[2]，有志之士可作研究。

本人的硕士论文对算法鲁棒性有所涉及，并偏向聚类算法的鲁棒性，但也只是学到了一点皮毛，考虑到网上的相关博文极少，故在此记录一番。

1. Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念：

一是模型具有较高的精度或有效性，这也是对于机器学习中所有学习模型的基本要求；

二是对于模型假设出现的较小偏差，只能对算法性能产生较小的影响；

主要是：噪声（noise）

三是对于模型假设出现的较大偏差，不可对算法性能产生“灾难性”的影响。

主要是：离群点（outlier）

2. 聚类算法的鲁棒性：

1）定义

对于聚类算法而言，鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响。

2）综述文章

文献[4] [5]

3. 提升对离群点数据鲁棒性的方法

1）lp范数，0<p<=1

文献[6]

文献[7] 给出了一种鲁棒化PCA的方法，采用了L1范数。本人在博文[机器学习]Lasso，L1范数，及其鲁棒性中分析了L1范数相对于L2范数的鲁棒性，引用了文献[7]。

2）采取鲁棒的数据模型

被广泛使用的数据模型：

，

u--干净簇中心向量，e--噪声向量。

上述数据模型改造为：

o--outlier。采用该数据模型，再在目标函数中引入关于o的惩罚项（如L1，L2范数），可提高算法鲁棒性。

参考文献：聚类 -- 文献[8]， PCA -- 文献[9]

4. 未来发展：

TomDietterich教授表达了对人工智能鲁棒性的特别关注，参考文献[3] -- 一篇顶会的ppt。

参考文献：

[1] Huber P J. Robust Statistics[J]. 1981. Wiley, New York.

[2] Hampel F R, Ronchetti E M, Rousseeuw P J, et al. Robust statistics: the approach based on influence functions[J]. 1986. Wiley, New York.

[3] http://web.engr.oregonstate.edu/~tgd/talks/dietterich-aaai-presidents-address-final.pdf

[4] Luis Angel García-Escudero, Alfonso Gordaliza, Carlos Matrán, et al. A review of robust clustering methods[J]. Advances in Data Analysis and Classification, 2010, 4(2-3):89-109.

[5] Dave R N, Krishnapuram R. Robust clustering methods: a unified view[J]. IEEE Transactions on Fuzzy Systems, 2002, 5(2):270-293.

[6] Nie F, Wang H, Cai X, et al. Robust Matrix Completion via Joint Schatten p-Norm and lp-Norm Minimization[C]// IEEE, International Conference on Data Mining. IEEE, 2013:566-574.

[7] Meng D, Zhao Q, Xu Z. Improve robustness of sparse PCA by L1-norm maximization[J]. Pattern Recognition, 2012, 45(1): 487-497.

[8] Forero P A, Kekatos V, Giannakis G B. Robust clustering using outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(8): 4163-4177.

[9] Mateos G, Giannakis G B. Robust PCA as bilinear decomposition with outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(10): 5176-5190.