目录
问题1:在基于贪婪多臂算法(Greedy Bandit Algorithms)的最优初始化中,Q初始化过高的缺点是什么?
问题3:Toy Example: Probably Approximately Correct and Regret
问题4:Check Your Understanding: Thompson Sampling and Optimism
问题1:在基于贪婪多臂算法(Greedy Bandit Algorithms)的最优初始化中,Q初始化过高的缺点是什么?
答案:唠叨小主还不知道,请勿怪罪
问题2:Is this trivial to do with function approximation? Why or why not?基于贪婪多臂算法(Greedy Bandit Algorithms)的最优初始化和函数近似无关吗?为什么或为什么不做?
答案:唠叨小主还不知道,请勿怪罪
问题3:Toy Example: Probably Approximately Correct and Regret
正确答案是什么???
如下所示:
问题4:Check Your Understanding: Thompson Sampling and Optimism
考虑一个在线新闻网站,每秒都有成千上万的人登录。通常在我们看到最后一个人是否点击之前,一个新人会登陆网站。