一、统计学习分类
- 监督学习
-线性回归
-决策树
-SVD - 非监督学习
-k-means聚类
-层次聚类 - 半监督学习
-生成模型算法 - 强化学习
-Q-learning
-隐马尔科夫模型
1.常见的监督学习模型
1. 线性模型
2. 决策树
3. 神经网络
4. 支持向量机
5. 贝叶斯分类
6. 集成学习模型(随机森林,GBDT,XGB,LightGBM)
基本概念:
- 模型、策略与算法
- 评价函数
- 目标函数
- 过拟合与欠拟合
- 正则化
- 交叉验证
- 泛化能力
验证方法:
- 1.训练集、线下验证集、线下测试集、线上测试集
- 2.无时序的数据集:简单划分、交叉验证划分等
- 3.有时序的数据集:需考虑时序,nested交叉验证划分等
模型选择:
-1.依据在验证集上的效果选择
-2.除了关注效果的均值,还要关注稳健性
-3.还需要考虑线上效果;可将线上效果视为一折数据
参数调优:
-1.不建议将精力放在参数调优上,容易过拟合
-2.大体的设置参数即可
-3.应该精力重点放在特征工程;其次是模型融合