样本处理:
模型冷启动:
构建专家规则模型(前期比机器学习模型重要)
平滑过渡:充分部分优先切换
产品->数据->产品的重要性
数据技术不是核心竞争力,但数据是。
样本分布不一致的解决方案:
不一致会有什么问题?样本数据和实际数据的分布不一致。
难点在于发现(意识到)
需要清楚产品需要什么
样本不平衡的解决方案:
样本不平衡的问题:分布的比例偏差较大,把小样本进行扩充
原理解析
两种等价方案:小样本扩充or代价敏感学习
变化业务的解决方案:
业务变化剧烈:不能只基于历史数据 两种解决思路:加快模型更新频率,样本重要性调权,流式训练,在线学习。
机器学习能应对黑天鹅么?机器学习只能进行抽象,不能想象。
模型评估:
评估的关键:业务目标和模型目标一致
做业务模型的经验积累:模型指标提升X,则业绩指标提升Y
想清楚做事的目标并不容易:
一切目标都不是那么容易搞清楚
大企业的困境:渠道、产品、内容重要性不断变化neinei内容分发平台:上游内容生产,下游硬件渠道。
1、满足用户需求
2、赚到钱
3、生态长长久久
尽量避免超级APP
模型指标的设计:二分类问题的误差
最简答的二分类的问题
如何评价模型预测的效果。这两种错误一样么?
关注某一类的错误,然后去改进这一类对应的指标。准确率和召回率
模型冷启动:
构建专家规则模型(前期比机器学习模型重要)
平滑过渡:充分部分优先切换
产品->数据->产品的重要性
数据技术不是核心竞争力,但数据是。
样本分布不一致的解决方案:
不一致会有什么问题?样本数据和实际数据的分布不一致。
难点在于发现(意识到)
需要清楚产品需要什么
样本不平衡的解决方案:
样本不平衡的问题:分布的比例偏差较大,把小样本进行扩充
原理解析
两种等价方案:小样本扩充or代价敏感学习
变化业务的解决方案:
业务变化剧烈:不能只基于历史数据 两种解决思路:加快模型更新频率,样本重要性调权,流式训练,在线学习。
机器学习能应对黑天鹅么?机器学习只能进行抽象,不能想象。
模型评估:
评估的关键:业务目标和模型目标一致
做业务模型的经验积累:模型指标提升X,则业绩指标提升Y
想清楚做事的目标并不容易:
一切目标都不是那么容易搞清楚
大企业的困境:渠道、产品、内容重要性不断变化neinei内容分发平台:上游内容生产,下游硬件渠道。
1、满足用户需求
2、赚到钱
3、生态长长久久
尽量避免超级APP
模型指标的设计:二分类问题的误差
最简答的二分类的问题
如何评价模型预测的效果。这两种错误一样么?
关注某一类的错误,然后去改进这一类对应的指标。准确率和召回率