DeepRL_in_action
今晚打佬虎
一名二手的人工智能表演艺术家!
展开
-
DRL实战 : 强化学习在广告点击业务中的应用
强化学习在广告点击业务中的应用 业务场景 广告投放是为了最大程度增加顾客点击的可能性,尽可能给顾客展示他们可能感兴趣的东西.假设一个小型的电子商务网站,有十个不同的版块,分别对应这不同类型的商品,网站为了增加销量,每次有客户在完成支付后,会向顾客展示广告链接,可以跳转到网站的不同版块,希望顾客也会购买其...原创 2020-01-17 17:59:28 · 1351 阅读 · 0 评论 -
DRL实战 : N-Armed Bandits问题
多臂强盗(n台老虎机)问题 在构建AlphaGo之前,先尝试一个简单的问题热热身,nnn 台老虎机(多臂强盗问题),把对 nnn 台老虎机操作看作是 nnn 个不同的动作,即:每个动作 aaa 对应一台特定的老虎机.在每次游戏 kkk 中,玩家可以操作任意一台老虎机,这个操作即:动作 aaa,操作后玩家会获得奖励 R(k)R(k)R(k), 每台老虎机的奖励概率是固定的. 如何在这个游戏中获得更高...原创 2020-01-15 16:28:11 · 890 阅读 · 0 评论 -
DRL实战 : Dynamic Programming
DRL in Action : Dynamic Programming 把目标分解为一组更易于解决的子目标,同时保存子目标的所有的解决方案,以便在次遇到该子问题时,可以直接查找到之前的解决方案,不用重新计算. # 计算斐波那楔数列 def fib(n): if n <= 1: return n else: return fib(n - 1) ...原创 2020-01-13 15:32:55 · 297 阅读 · 0 评论