一、练习目标:
1、数据清洗及预处理,掌握分类特征及标签的编码方法,包括OrdinalEncoder、OneHotEncoder、LabelEncoder。
2、通过练习,重点掌握SVC算法、Adaboost算法的调参,重点掌握提高召回率的调参办法。
3、比较不同算法建立分类模型的运行时间、准确率、召回率、ROC值。
二、重要结论:
1、存在严重缺失值问题。(特征工程多么重要!!本次练习重点在算法理解,故暴力处理,直接删除有缺失值样本)
2、存在不太明显的异常值问题。(Rainfall当作分类特征处理)(直接删除有异常值的样本)
3、存在特征量纲差异问题,对13个连续型特征进行标准化处理。
4、对5万多条样本量与120个特征的数据集建模,不同算法的表现如下:
**(1)运行效率排名**
- SVM(SVC)算法 (3-18分钟)< Adaboost算法 < 逻辑回归算法。
- SVM(SVC)算法中,比较基于四个核函数建模的运行时间,取linear时最长,取rbf时最短。
**(2)追求最高准确率**
- Adaboost算法表现最差,SVM(SVC)算法与逻辑回归算法表现相当
- SVM(SVC)算法中,linear与rbf表现相当
**(3)追求最高召回率**
- SVM(SVC)算法 与 逻辑回归算法 表现相当,逻辑回归算法略好。
5、不论哪个算法,若追求最高召回率,同时明显牺牲了准确率。
6、综合来看&#x