机器学习模型应用以及模型优化的一些思路

机器学习模型应用以及模型优化的一些思路

1 概述

本文会介绍如何应用机器学习模型来构建一个智能化应用的通用的过程以及过程中每个环节一些实践性的思路。

2 搭建基于机器学习模型的智能化应用的通用流程

下面介绍一些通用流程

1) 问题界定和定义

将一个业务中待解决问题转化为一个机器学习模型应用问题

2) label标注的定义

label的定义和问题的界定直接相关。 Label我们要尽量选择用户在产品中做出的明确清晰的标注。

3) 数据样本的筛选和构造

4) 选择机器学习算法

5) 确定模型性能的度量方式

6) 模型优化

包括数据分析可视化、特征工程、算法调参、bad case 分析等,这是一个反复迭代优化的过程。

7) 设计模型应用的策略

这个和问题界定有一定相关,但在实际应用中,有很多细节的考量,这些细节对于业务效果非常重要。 同样模型、不同策略得到业务效果可能会差异很大。

8) 设计实验以及确定评估指标

9) 模型线上应用

这里包括线上以及离线特征导入以及线上特征提取、模型线上化、离线和线上模型性能确认、策略研发等。

10)业务效果评估

机器学习模型应用是一个反复迭代实验过程,根据实验效果进行很多次的分析调整,以上环节会反复循环进行。

 

3 机器学习模型应用的环节详解

3.1  问题界定和定义

这个步骤非常重要,如何将一个业务中待解决问题转化为一个机器学习模型应用问题,是机器学习应用的第一步,也确定后面所有流程的工作方向。如果这个部分界定或拆分的不好,那就很难产出好的业务效果。

在一些成熟的机器学习应用领域,问题界定已经比较清楚,例如搜索广告中如何最大化收入问题映射为CTR(点击率)预估机器学习问题。

非成熟的问题,就需要我们自己进行定义和界定。在充分理解业务运行的方式以及业务的目标的情况下,我们要提炼出希望优化的目标(最大化xx),同时要确定我们约束是什么,然后抽象为机器学习模型(分类问题、回归问题)以及模型应用的策略。

3.2  label标注的定义

label的定义和问题的界定直接相关。

Label 我们尽量选择有用户明确清晰在产品中标注定义的,例如是否点击了广告、是否发单、是否取消、是否投诉等这些在产品交互中用户明确作出的判断。而在特定一些问题场景中,可能无法直接找到这样label,例如判断用户是否流失、用户是否对产品有负面的倾向等,在这种情况下,需要尽量和产品等业务方一起来做label,确定这label定义方式是符合业务本质的。总体上讲,明确清晰无歧义的label标注更利于机器应用学习应用取的成功。

3.3  数据样本的筛选和构造

在这个阶段,会确定我们可用的数据样本的规模,确定训练样本、测试样本的拆分方式。有几点思路:

1) 尽量多的数据样本

可以通过扩大数据提取的时间范围、重复采样、时间

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值