首先要考虑的问题?训练集有多大, 小训练集使用,高偏差、低方差的模型,朴素贝叶斯
大训练集使用,低偏差、高方差的模型,KNN。
朴素贝叶斯:不能学习特征之间的交互关系。
决策树:不支持在线学习,当样本置新时,决策树需要重建。而且容易过拟合
SVM:高准确率,避免过拟合,就算数据在原特征空间是线性不可分的,只要给一个合适的核函数,他就能运行。但是内存消耗大,调参麻烦。
提升准确率还是要尝试多种分类器,并且通过交叉验证,或者通过集成方法(boosting)将它们综合起来。
首先要考虑的问题?训练集有多大, 小训练集使用,高偏差、低方差的模型,朴素贝叶斯
大训练集使用,低偏差、高方差的模型,KNN。
朴素贝叶斯:不能学习特征之间的交互关系。
决策树:不支持在线学习,当样本置新时,决策树需要重建。而且容易过拟合
SVM:高准确率,避免过拟合,就算数据在原特征空间是线性不可分的,只要给一个合适的核函数,他就能运行。但是内存消耗大,调参麻烦。
提升准确率还是要尝试多种分类器,并且通过交叉验证,或者通过集成方法(boosting)将它们综合起来。