最近进公司实习培训,大概是get了一下数据挖掘工程师的本职工作是什么:理解业务场景,根据业务抽取特征,建模预测。所以重点还是在于业务的理解与算法在什么场景下是适用的,我将最近的工作做了个总结。汇总了常见的机器学习算法适合使用的业务场景。
主要参考了以下的文章,写的很好,我写的内容相当于这两个链接的汇总和一些添加吧:
https://zhuanlan.zhihu.com/p/46831267
https://www.zhihu.com/question/26726794
部分常见机器学习算法适合使用的业务场景汇总
1正则化算法
正则化是一种降低过拟合风险的方法,本质是在模型训练的过程中,不一味的降低损失函数,追求偏差的降低,而是在损失函数中加入“正则化惩罚项”,常见的有L1、L2正则化惩罚项。惩罚项保证了模型方差与偏差之间的平衡,增加模型的方差,以确保模型的泛化性。
适用场合:模型结构复杂,数据量少。
缺点:增加欠拟合风险,难以校准(L1、L2正则化惩罚项的系数需要手动调节)。
Ps.
L0正则化的值是模型参数中非零参数的个数。
L1正则化表示各个参数绝对值之和。L0与L1可以让特征参数变得稀疏,利于特征选择。(Lasso)
L2正则化标识各个参数的平方和。L2让特征参数变得均匀。(Ridge)
正则化惩罚项带来的附加作用就是让特征之间的相关性降低,L1是将类似的特征参数变得只剩一个,L2是将具有强相关性的两个特征的参数变的类似,从而模型的稳定性得到提升。
2 集成学习(boosting+bagging+RF)
集成学习是多个弱学习器组合成为一个强学习器的方法。一般弱学习器集成的方法有两种,一种是boosting,一种是bagging。
Boosting中的弱学习器是通过串行