美团机器学习实践（1）通用流程

最新推荐文章于 2022-06-10 17:29:47 发布

有石为玉

最新推荐文章于 2022-06-10 17:29:47 发布

阅读量527

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41770169/article/details/93229577

版权

技术文档专栏收录该内容

66 篇文章 0 订阅

订阅专栏

目录

第1章问题建模

1.1 评估指标

1.2 样本选择

1.3 交叉验证

第2章特征工程

2.1 特征提取

2.2 特征选择

第3章常用模型

第4章模型融合

4.1 理论分析

4.2 融合方法

讲述机器学习解决实际问题的通用流程:

如何分析问题

如何进行特征工程、常见模型的比较和选择

如何进行效果评测

各类机器学习竞赛中常用的模型融合技巧

第1章问题建模

1.1 评估指标

分类指标：精确率和召回率，ROC与AUC

回归指标：MAE平均绝对误差，MAPE平均绝对百分误差，RMSE均方根误差

排序指标：MAP平均准确率均值，NDCG归一化

1.2 样本选择

样本选择的3个好处：

（1）数据量太大：浪费资源；太少：预测不准

（2）相关性低的数据对预测没有作用

（3）去除噪声数据

样本选择的方法：去噪，采样；原型选择，训练集

1.2.1 数据去噪

噪声数据：比如电商特征值不对，或者图像分类的标注不对

（q的应用：图像中，可以通过开放接口筛选，再通过人工筛；电商中，行为数据设置可用的阈值）

1.2.2 采样

5种采样方法

（1）无放回简单随机抽样

（2）有放回简单抽样

（3）平衡采样：根据预定义比例，对样本重新组合。

比如正100，负10000，预定义比例1:10。则上采样为：正复制10倍；负采样为：删除负剩下1000

（4）整群采样：样本分成N个cluster，再随机抽s<=N个

（5）分层采样：正负样本分别采样x%，保证正负样本比例不变。

1.2.3 原型选择和训练集选择

1.3 交叉验证

留出法、k折交叉验证、自助法

第2章特征工程

数据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近这个上限而已。

基于大量数据的简单模型胜于基于少量数据的复杂模型。

更多的数据胜于聪明的算法，而好的数据胜于多的数据。

2.1 特征提取

特征工程的第一步：理解业务数据和业务逻辑

常见的统计特征：次数，比率，统计量特征（均值，峰值，分位数等）

2.1.1 探索性数据分析

EDA：Exploratory Data Analysis探索性数据分析。分为可视化、定量分析两种。

2.1.2 数值特征

处理方法：截断、二值化、分桶（分值/分位数）、缩放、缺失值处理（补/忽略）、

特征交叉（组合，加减乘除；FM/FFM：自动进行特征交叉组合）

非线性编码（多项式核等）、行统计量

2.1.3 类别特征

自然数编码、独热编码、分层编码（比如身份证等）、散列编码、计数编码、计数排名编码、目标编码

2.1.4 时间特征

2.1.5 空间特征

2.1.6 文本特征

语料构建、文本清洗、分词、词袋/N-Gram、Skip-Gram等

2.2 特征选择

特征选择的目的：简化模型（使模型更易理解）、改善性能（节省存储和计算开销）、改善通用性，降低过拟合风险

特征选择的过程：产生过程，评价函数，停止准则，验证过程

特征选择的方法：过滤方法，封装方法，嵌入方法

第3章常用模型

3.1 逻辑回归

3.2 场感知因子分解机

3.3 梯度提升树

第4章模型融合

4.1 理论分析

融合收益，模型误差-分歧分解，模型多样性度量，多样性增强

4.2 融合方法

平均法，投票法，bagging，stacking

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。