机器学习 - 样本处理

最新推荐文章于 2024-05-27 17:38:32 发布

BigDeng_2014

最新推荐文章于 2024-05-27 17:38:32 发布

阅读量1.2k

点赞数

分类专栏：计算机网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigDeng_2014/article/details/80727021

版权

计算机网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

样本处理：

模型冷启动：
构建专家规则模型（前期比机器学习模型重要）
平滑过渡：充分部分优先切换
产品->数据->产品的重要性
数据技术不是核心竞争力，但数据是。

样本分布不一致的解决方案：
不一致会有什么问题？样本数据和实际数据的分布不一致。
难点在于发现（意识到）
需要清楚产品需要什么

样本不平衡的解决方案：
样本不平衡的问题：分布的比例偏差较大，把小样本进行扩充
原理解析
两种等价方案：小样本扩充or代价敏感学习

变化业务的解决方案:
业务变化剧烈：不能只基于历史数据两种解决思路：加快模型更新频率，样本重要性调权，流式训练，在线学习。
机器学习能应对黑天鹅么？机器学习只能进行抽象，不能想象。

模型评估：
评估的关键：业务目标和模型目标一致
做业务模型的经验积累：模型指标提升X，则业绩指标提升Y
想清楚做事的目标并不容易：
一切目标都不是那么容易搞清楚
大企业的困境：渠道、产品、内容重要性不断变化neinei内容分发平台：上游内容生产，下游硬件渠道。
1、满足用户需求
2、赚到钱
3、生态长长久久
尽量避免超级APP

模型指标的设计：二分类问题的误差
最简答的二分类的问题
如何评价模型预测的效果。这两种错误一样么？
关注某一类的错误，然后去改进这一类对应的指标。准确率和召回率

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习 - 样本处理

样本处理：模型冷启动：构建专家规则模型（前期比机器学习模型重要）平滑过渡：充分部分优先切换产品-&gt;数据-&gt;产品的重要性数据技术不是核心竞争力，但数据是。样本分布不一致的解决方案：不一致会有什么问题？样本数据和实际数据的分布不一致。难点在于发现（意识到）需要清楚产品需要什么样本不平衡的解决方案：样本不平衡的问题：分布的比例偏差较大，把小样本进行扩充原理解析两种等价...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。