Exploitation和Exploration

Exploration&Exploitation的理解

From https://www.jianshu.com/p/22c4f36a52ff

1. 介绍

1.1 探索与利用间的困境

Online decision-making involves a fundamental choice:

Exploitation Make the best decision given current information
Exploration Gather more information

The best long-term strategy may involve short-term sacrifices
Gather enough information to make the best overall decisions

1.2 生活中栗子

Restaurant Selection

Exploitation Go to your favorite restaurant
Exploration Try a new restaurant

Online Banner Advertisements

Exploitation Show the most successful advert
Exploration Show a different advert

Oil Drilling

Exploitation Drill at the best known location
Exploration Drill at a new location

Game Playing

Exploitation Play the move you believe is best
Exploration Play an experiment move

1.3 伍种策略规则

Naive Exploration

Add noise to greedy policy

Optimistic Initialization

Assume the best until proven otherwise

Optimism in the Face of Uncertainty

论推荐系统的Exploitation和Exploration

From http://t.cn/RqiMNDc

走一步看一步的策略

这里再简单阐述一下什么是E&E。简单来说,就是我们在优化某些目标函数的时候,从单一时间维度来看,当信息不足或者决策不确定性(Uncertainty)很大的时候,我们需要平衡两类决策:
—选择现在可能最佳的方案
—选择现在不确定,但未来可能会有更高收益的方案
在做这两类决策的过程中,我们也逐渐对所有决策的不确定性不断加以新的认识。于是最终从时间维度上来看,我们在不确定性的干扰下,依然能够去优化目标函数。也就是说,E&E可以看做是一个优化过程,需要多次迭代才能找到较优的方案。

E&E的应用历史

E&E的产品部署难点

难点一:如何上线测试
难点二:如何评测
对推荐系统(以及很多类似系统)来说,在线系统的评测,也就是说如何衡量一个算法或者一个功能的好坏,往往依赖于复杂的A/B测试系统。A/B测试系统是按照人群来分的,对于同一个人来说,在某一段时间内,一般是只能看到A或者B系统。一部分看A系统,另一部分人看B系统,然后根据一些用户指标(比如点击率)来决定究竟是A系统好还是B系统好。
难点三:如何平衡产品

可以挖掘的问题

—数据收集
—用户友好型的E&E方案。这方面不是学术圈的重点,但却是工程产品方面非常需要的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值