-
某个领域的新问题,在其他领域已经有成熟的解决方案可以借鉴。
-
我们会遇到探索未知和利用当下的问题,算法模型的抽象就是多臂赌博机。面对多台外观一样的赌博机,其吐钱概率未知,我们如何在有限次摇臂下使累计收益最大,或者说累计遗憾最少。
-
策略:不确定中通过试错找到合适的收益点,使累计遗憾减少。
-
方法有基于概率分布、置信区间、贪婪三种方法
- 概率分布,给予好的和不确定的选项更多机会。
- 置信区间,在选择好的同时,也给未选的方案更多机会。
- 贪婪确定一个概率去随机探索,其余情况选择当下收益最好的。
感悟
- 前期多去探索,后期多选择收益好的,同时给其他未知选项机会。
- 不要完全随机和固步自封。不去探索闭门造车甚至比完全随机的结果更差,不要陷入局部最优,给自己留一点探索和学习的时间。只差0.05,就是最优方案和最差方案的区别。
- 人生漫长,不要纠结于某件事情的成败,。
- 积累小胜,不断优化。