目录
1不同分类算法的优点是什么-Xavier Amatriain版
//声明:翻译:https://www.quora.com/What-are-the-advantages-of-different-classification-algorithms 中Xavier Amatriain 对问题“What are the advantages of different classification algorithms?”的回答
你可以从下面几个方面来看你要选择哪个算法比较合适:
训练样本的数量
特征空间的维数
我是否期望问题是【线性可分离】的吗?(线性可分离就是指不同类问题在图中用直线能完全分开)
特征是否是独立的
希望特征与目标变量是【线性可分离】的吗?
过度拟合是否将成为一个问题?
系统在速度、性能、内存占用方面有什么需求?
…
不管上述有多复杂,我们要只要遵循奥卡姆的剃刀原则(Razor principle):如无必要,勿增实体。
逻辑回归:
通常,我推荐先用逻辑回归。逻辑回归是一种具有很好表现的分类算法,只要你的【特征】是线性或近似线性的并且【问题】是线性可分的就可以用它进行训练。你可以通过【特征工程】将大多数非线性特征简单的转化成较好的线性的特征。它抗噪声干扰能力强,并且你可以通过使用l2和l1正则化的方法来对特征进行选择从而避免过度拟合。逻辑回归也可以用在大数据的场景中,因为它是非常有效并且可以分布式的使用,如,ADMM(logreg)。逻辑回归LR最大的优点就是它的输出的是几率,更容易解释,这样还可以直接拿来用,例如,用排行来代替分类。
即使你认为逻辑回归方法不能十分的有效,那也请你使用一个简单的l2-regularized LR来试一下。
好了,那么假设你已经了解了并简单使用了LR,下一步该做什么?我主要推荐两个合适的方向:1.SVM 2.决策树集。如果我不知道你要分类的问题,那我肯定会使用决策树集成的方法,但是我会先从描述SVM开始讲为什么SVM会是一个值得考虑的方法。
支持向量机SVM:
Support Vector Machines (SVMs) 使用与LR不同的损失函数(Hinge)。他们的解释也不相同(最大间距&#x