数据挖掘新手常问的一个问题是,这么多算法里面该选用哪一个?在没有更多背景信息给出时,如果追求预测的准确程度,一般用支持向量机(SVM),如果要求模型可以解释,一般用决策树。使用SVM的时候选择高斯核(即RBF kernel),同时要用交叉验证(cross validation)选择合适的模型参数。
下面的表格是对常用分类算法的一个比较,来自一篇文章
Kotsiantis, S. B.
Supervised Machine Learning: A Review of Classification Techniques
Informatica, 2007, 31, 249-268
接下来这个表格的结论类似,它来自经典名著
Hastie, T.; Tibshirani, R. & Friedman, J.
The Elements of Statistical Learning, Second Edition
Springer, 2009