多臂赌博机与生涯规划

  1. 某个领域的新问题,在其他领域已经有成熟的解决方案可以借鉴。

  2. 我们会遇到探索未知和利用当下的问题,算法模型的抽象就是多臂赌博机。面对多台外观一样的赌博机,其吐钱概率未知,我们如何在有限次摇臂下使累计收益最大,或者说累计遗憾最少。

  3. 策略:不确定中通过试错找到合适的收益点,使累计遗憾减少。

  4. 方法有基于概率分布、置信区间、贪婪三种方法

    1. 概率分布,给予好的和不确定的选项更多机会。
    2. 置信区间,在选择好的同时,也给未选的方案更多机会。
    3. 贪婪确定一个概率去随机探索,其余情况选择当下收益最好的。

    image-20200623184829991

感悟

  1. 前期多去探索,后期多选择收益好的,同时给其他未知选项机会。
  2. 不要完全随机和固步自封。不去探索闭门造车甚至比完全随机的结果更差,不要陷入局部最优,给自己留一点探索和学习的时间。只差0.05,就是最优方案和最差方案的区别。
  3. 人生漫长,不要纠结于某件事情的成败,。
  4. 积累小胜,不断优化。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值