根据数据选择模型:
离散指大量01,连续就是连续值。
大量高维离散特征:
- LR:很好的拟合,可以使用正则化避免过拟合,实现更简单
- RF:也可以,主要优点是对缺失值不敏感,bagging策略防止过拟合。对低维少量样本不适合。
- GDBT: 不适合,容易过拟合,(如训练时通过个别特征就可以拟合,但只有一层)
- SVM:处理具备高维特征的数据集,离散连续都可以
少量低维连续特征:
- GDBT:适合,内部使用CART回归实现,节点分支则自动实现特征选择和离散等处理。特征多,使用全部特征处理,不能有效存储。
- RF: 不适合,难以拟合。特征数量少
- LR: 可能存在共线性,导致模型不稳定
- SVM: 特征较多的适合比较合适。
样本量:
- 大:LR、RF、GDBT
- 小:SVM
各模型之间的对比:
- LR逻辑回归:①分类模型 ②判别模型 ③用条件概率最大化求最优解 ④模型复杂度不高,适合大量简单数据 ⑥数据离散和归一化
- SVM支持向量机:①分类模型(改造下可用于回归) ②判别模型 ③用分离超平面,几何间隔最大化求最优解 ④适合求解比较复杂数据 ⑤对缺失值敏感,距离度量 小样本表现由于其他模型 ⑥数据归一化
- DT决策树:①分类模型、回归模型 ②判别模型 ③选择最优解点划分样本空间,使样本混乱度减少 ④适合较为复杂数据
- 集成模型:
- RF随机森林:①bagging集成方法 ②通过减少模型的方差(波动)进行性能提升 ③对异常值不敏感,但容易对噪声数据过拟合 ④分类树或回归树都可以(分类:信息熵、基尼指数,回归:最小二乘法,即均方误差)适合离散型或连续型特征。对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题。可以并行。
- GDBT梯度提升树:①boosting集成方法 ②通过减少模型的偏差进行性能提升 ③对异常值敏感 ④回归树(CART) ⑤做分类时情况 ⑥数据归一化会加快收敛速度
- xgboost:
- lightGBM:
- HMM:
- CRF:
- EM:
- 最大熵: