机器学习中qa测试_机器学习平台测试篇

在机器学习平台这样的项目上,质量如何保证,测什么、怎么测、QA如何实践? 在回答这些问题之前,先简单回顾一下机器学习平台是做什么的? (已了解的同学,可跳过这一节。 )

机器学习平台是做什么的


用户旅程

机器学习平台是一款为数据科学家们高效、可视化地进行人工智能的工作平台。数据科学家的日常工作,用一句话概括就是把一个模糊的问题转化成一个具体的数据问题,运用数据科学的方法解决掉这个问题。 举个例子: 广告投放部老大,要求数据科学家小博用模型去估计广告点击率,以便给什么用户推荐什么广告,增加用户的点击率。小博思考,广告被点击是1,没有被点击是0,这是个二分类问题,可以用简易的逻辑回归模型来预测用户点击的概率。小博开始行动如下图:

55e438a1d189e95cef9c5cc237748a12.png

图1 CTR问题解决步骤

(1)数据收集: 小博开始收集业务相关的数据,广告供应商的信息,广告本身的信息和用户信息等; (2)预处理: 对收集到的的上述原数据进行清洗,比如去除脏去重等; (3)构造数据集: 把经过预处理的业务数据,构造数据集; (4)特征工程: 对数据进行特征处理(如Onehot编码),提取特征(如信息增益),供LR模型使用; (5)选择模型: 选用Logistic Regression算法来预测广告点率; (6)参数调优&评估: 选择在离线数据集中性能评估值最好的参数组合; (7)在线A/B测试: 把上一步调出的最优模型上线,和原有模型进行A/B测试,如果新的模型性能表现更好,则替换掉旧模型,小博大功告成。 业务功能 机器学习平台就是帮助数据科学家工作变得更简单、高效。 不仅集成了各种组件(算子)和算法,提供了友好的可视化界面,还可以通过简单的拖拉拽来构建复杂的Pipeline,使得数据科学家日常工作更简便、高效。 机器学习平台主要业务包括:

(1)数据集:

简单方便构建数据集、查看数据集样例。

(2)Pipeline:

数据科学家可以通过可视化拖拉拽方式来构建Pipeline;

支持了多种组件(如:分箱、PCA、OneHot、信息增益、相关性系数等);

特征处理、提取、降维等;多个步骤的流水线式工作。

(3)建模实验:         支持常用的各种算法。 (如: LR、Decision Tree、SVM、FM、DFM、DNN等)

可视化的方式建模、调参、评估,自动评选最优模型,一键发布。

(4)Notebook: 集成了Notebook,一键创建启动Notebook的Runtime环境。支持各种不同的资源规格(如:CPU/GPU,16C/32C/64C,64G/128G)。同时、提供了各种内置安装包PySpark或 TensorFlow 等。 简单认识机器学习平台后,进入本文主题,机器学习平台测什么、怎么测?

机器学习平台测试什么


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值