1、为什么做归一化/标准化?
归一化对数据进行移动,但不改变数据分布,标准化使数据符合某种分布,改变了数据分布。
做归一化/标准化是因为某些特征量纲差别大,做了归一化/标准化可以加速求解。
需要做归一化/标准化的算法:涉及距离计算的算法,如KNN、KMEANS,用梯度下降求解的算法,如逻辑回归。
哪些算法不需要归一化/标准化:树形结构,如决策树和随机森林,因为他们关注的不是数据的值,而是数据的分布和概率,对数据缩放不影响分裂点的位置。
2、有监督和无监督的区别。
一个有label一个没有label,一个学习的是特征和label的映射关系,一个学习的是数据内部的结构。
3、bagging 和 boosting
bagging模型独立、互相平行,boosting模型有序,逐渐提升。
4、随机森林优缺点
结合建模过程来说,
先说优点,
首先,数据获取方面,
因为随机森林有着随机挑选特征进行分支的这个随机性,所以优点1就是能处理高维数据,并且不需要进行特征选择。
因为随机森林是bagging的典型代表,存在着有放回随机抽样的特点,所以优点2就是它可以处理大数据,并且在分类问题中能有效解决样本不均衡问题。
接着,数据预处理方面,
因为随机森林可以自动填充缺失值,所以优点3就是使用随机森林不需要对缺失值进行预处理。
因为数据缩放不影响最优分裂点的位置,所以优点4就是使用随机森林不需要做规范化。
再接着,模型训练过程方面,
因为随机森林是典型的bagging集成模式,它的弱学习器是并行的方式产生的,所以优点5就是跟boosting的那些集成算法比起来,随机森林的训练速度更快。
然后,模型效果方面,
因为随机森林是若干个决策树组成的森林,所以优点6就是随机森林的效果要比单颗决策树好,优点7就是随机森林比单颗树更稳健,优点8就是比单颗树更能对抗过拟合。
再说说缺点,
首先,从模型训练方面,
因为随机森林是若干个决策树并行组成的,所以缺点1就是训练速度比单颗树慢,而且弱学习器数量越多训练速度越慢。
然后,从模型效果方面,
因为随机森林的结果是多颗决策树的结果进行投票表决或者求平均得到的,但是决策树天生就是过拟合的,所以缺点2就是跟boosting的那些集成算法相比,随机森林的过拟合也是挺严重的。