大数据分析经验总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Shadow_Mi/article/details/51803263

大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,机器学习领域多年得出的一些经验规律。

 1.大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

 2.一般地,Ensemble方法包括Random ForestAdaBoostSVMLogistic Regression 分类准确率最高。

 3.没有一种方法可以应对所有问题。Random ForestSVM等方法一般性能最好,但不是在什么条件下性能都最好。

 4.不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。

 5.对于简单问题,Random ForestSVM方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

6. 在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

总结:数据决定分析结果的上限,而不同算法只是决定了逼近上限的程度。

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页