决策树优点
1、决策树易于理解和解释,可以可视化分析,容易提取出规则。
2、可以同时处理标称型和数值型数据。
3、测试数据集时,运行速度比较快。
4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。
1、对缺失数据处理比较困难。
2、容易出现过拟合问题。
3、忽略数据集中属性的相互关联。
4、ID3算法计算信息增益时结果偏向数值比较多的特征。
1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。
2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。
企业管理实践,企业投资决策,由于决策树很好的分析能力,在决策过程应用较多。
KNN算法的优点
1、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练
2、KNN理论简单,容易实现
1、对于样本容量大的数据集计算量比较大。
2、样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。
3、KNN每一次分类都会重新进行一次全局运算。
4、k值大小的选择。
文本分类、模式识别、聚类分析,多分类领域
SVM优点
1、解决小样本下机器学习问题。
2、解决非线性问题。
3、无局部极小值问题。(相对于神经网络等算法)
4、可以很好的处理高维数据集。
5、泛化能力比较强。
1、对于核函数的高维映射解释力不强,尤其是径向基函数。
2、对缺失数据敏感。
文本分类、图像识别、主要二分类领域
AdaBoost算法优点
1、很好的利用了弱分类器进行级联。
2、可以将不同的分类算法作为弱分类器。
3、AdaBoost具有很高的精度。
4、相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。
1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
2、数据不平衡导致分类精度下降。
3、训练比较耗时,每次重新选择当前分类器最好切分点。
模式识别、计算机视觉领域,用于二分类和多分类场景
朴素贝叶斯算法优点
1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。
2、支持增量式运算。即可以实时的对新增的样本进行训练。
3、朴素贝叶斯对结果解释容易理解。
1、由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。
-
欺诈检测中使用较多
-
一封电子邮件是否是垃圾邮件
-
一篇文章应该分到科技、政治,还是体育类
-
一段文字表达的是积极的情绪还是消极的情绪?
-
人脸识别
Logistic回归算法
Logistic回归优点
1、计算代价不高,易于理解和实现
1、容易产生欠拟合。
2、分类精度不高。
用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等。
Logistic回归的扩展softmax可以应用于多分类领域,如手写字识别等。
信用评估
测量市场营销的成功度
预测某个产品的收益
特定的某天是否会发生地震
神经网络优点
1、分类准确度高,学习能力极强。
2、对噪声数据鲁棒性和容错性较强。
3、有联想能力,能逼近任意非线性关系。
1、神经网络参数较多,权值和阈值。
2、黑盒过程,不能观察中间结果。
3、学习过程比较长,有可能陷入局部极小值。
目前深度神经网络已经应用与计算机视觉,自然语言处理,语音识别等领域并取得很好的效果。
原文链接:http://www.jianshu.com/p/0aa35f4574ec
请关注LeadAI公众号,查看更多专业文章
点击量最高的文章
TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络
点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接