机器学习 - 样本处理

样本处理:


模型冷启动:
构建专家规则模型(前期比机器学习模型重要)
平滑过渡:充分部分优先切换
产品->数据->产品的重要性
数据技术不是核心竞争力,但数据是。

样本分布不一致的解决方案:
不一致会有什么问题?样本数据和实际数据的分布不一致。
难点在于发现(意识到)
需要清楚产品需要什么


样本不平衡的解决方案:
样本不平衡的问题:分布的比例偏差较大,把小样本进行扩充
原理解析
两种等价方案:小样本扩充or代价敏感学习

变化业务的解决方案:
业务变化剧烈:不能只基于历史数据 两种解决思路:加快模型更新频率,样本重要性调权,流式训练,在线学习。
机器学习能应对黑天鹅么?机器学习只能进行抽象,不能想象。


模型评估:
评估的关键:业务目标和模型目标一致
做业务模型的经验积累:模型指标提升X,则业绩指标提升Y
想清楚做事的目标并不容易:
一切目标都不是那么容易搞清楚
大企业的困境:渠道、产品、内容重要性不断变化neinei内容分发平台:上游内容生产,下游硬件渠道。
1、满足用户需求
2、赚到钱
3、生态长长久久
尽量避免超级APP

模型指标的设计:二分类问题的误差
最简答的二分类的问题
如何评价模型预测的效果。这两种错误一样么?
关注某一类的错误,然后去改进这一类对应的指标。准确率和召回率































  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值