目录
讲述机器学习解决实际问题的通用流程:
如何分析问题
如何进行特征工程 、常见模型的比较和选择
如何进行效果评测
各类机器学习竞赛中常用的模型融合技巧
第1章 问题建模
1.1 评估指标
分类指标:精确率和召回率,ROC与AUC
回归指标:MAE平均绝对误差,MAPE平均绝对百分误差,RMSE均方根误差
排序指标:MAP平均准确率均值,NDCG归一化
1.2 样本选择
样本选择的3个好处:
(1)数据量太大:浪费资源;太少:预测不准
(2)相关性低的数据对预测没有作用
(3)去除噪声数据
样本选择的方法:去噪,采样;原型选择,训练集
1.2.1 数据去噪
噪声数据:比如电商特征值不对,或者图像分类的标注不对
(q的应用:图像中,可以通过开放接口筛选,再通过人工筛;电商中,行为数据设置可用的阈值)
1.2.2 采样
5种采样方法
(1)无放回简单随机抽样
(2)有放回简单抽样
(3)平衡采样:根据预定义比例,对样本重新组合。
比如正100,负10000,预定义比例1:10。则上采样为:正复制10倍;负采样为:删除负剩下1000
(4)整群采样:样本分成N个cluster,再随机抽s<=N个
(5)分层采样:正负样本分别采样x%,保证正负样本比例不变。
1.2.3 原型选择和训练集选择
1.3 交叉验证
留出法、k折交叉验证、自助法
第2章 特征工程
数据和特征决定了机器学习算法的上限,而模型和算法只是 不断逼近这个上限而已。
基于大量数据的简单模型胜于基于少量数据的复杂模型 。
更 多的数据胜于聪明 的算法,而好 的数据胜于多的数据 。
2.1 特征提取
特征工程的第一步:理解业务数据和业务逻辑
常见的统计特征:次数,比率,统计量特征(均值,峰值,分位数等)
2.1.1 探索性数据分析
EDA:Exploratory Data Analysis探索性数据分析。分为可视化、定量分析两种。
2.1.2 数值特征
处理方法:截断、二值化、分桶(分值/分位数)、缩放、缺失值处理(补/忽略)、
特征交叉(组合,加减乘除;FM/FFM:自动进行特征交叉组合)
非线性编码(多项式核等)、行统计量
2.1.3 类别特征
自然数编码、独热编码、分层编码(比如身份证等)、散列编码、计数编码、计数排名编码、目标编码
2.1.4 时间特征
2.1.5 空间特征
2.1.6 文本特征
语料构建、文本清洗、分词、词袋/N-Gram、Skip-Gram等
2.2 特征选择
特征选择的目的:简化模型(使模型更易理解)、改善性能(节省存储和计算开销)、改善通用性,降低过拟合风险
特征选择的过程:产生过程,评价函数,停止准则,验证过程
特征选择的方法:过滤方法,封装方法,嵌入方法
第3章 常用模型
3.1 逻辑回归
3.2 场感知因子分解机
3.3 梯度提升树
第4章 模型融合
4.1 理论分析
融合收益,模型误差-分歧分解,模型多样性度量,多样性增强
4.2 融合方法
平均法,投票法,bagging,stacking