reinforce
文章平均质量分 80
北落师门26101
这个作者很懒,什么都没留下…
展开
-
强化学习之DP策略搜索
进货问题:存一个货需要h,进货要k的总运费,每个货物要c,每卖一个货物得到p。买家的需求按照泊松分布lamb。采用V*迭代求解最优策略。不过经测试不像最优,但起码收敛并且表现不错,策略的进货数也和lamb呼应,存货越多,进货越少,有合理性。纯练手作品。import Poissonimport copyMax=20A=[0]*21P=[]c=5;k=2;h=2;p=8V=[]原创 2016-10-12 20:54:00 · 708 阅读 · 0 评论 -
Q-learning寻径(练手)
采用贪婪算法,每走一步-1,遇到障碍-10,到达+20.终止条件是抵达障碍物或终点,迭代200次。Q(s,a)=Q(s,a)+alpha*(r+gama*max(Q(s',a'))-Q(s,a))s'为下一状态,max指的是a'的最大Q值。maze是地图,1为起点,2终点,3障碍,4路径,0初始值,Q是状态-行为对的value。代码如下:maze=[]size=8rewar原创 2016-10-26 11:19:43 · 687 阅读 · 0 评论