RL
文章平均质量分 85
fxolivia
这个作者很懒,什么都没留下…
展开
-
RL 参数影响 和 RL 结果分析
Epsilon greedy:是用在决策上的一个策略,比如epsilon = 0.9的时候,就说明百分之90的情况我会按照Q表的最优值选择行为,百分之10的时间随机选择行为。 alpha:学习率,决定这次的误差有多少是要被学习的。 gamma:对未来reward的衰减值。gamma越接近1,机器对未来的reward越敏感gamma小于1的意义在于加速收敛,因为如果缺乏收敛能力,意味着你无限远视,远视虽好,但在解决复杂问题时,就会让的的AI算法试图穷尽所有的状况空间和可能性,这对算力的要求是一个挑战。实原创 2021-08-24 14:09:44 · 995 阅读 · 0 评论 -
pytorch之gather()
>>>import torch>>>>>>a = torch.Tensor([[1,2,3],[4,5,6]])>>>atensor([[1., 2., 3.], [4., 5., 6.]])>>>b = torch.gather(a,1,torch.LongTensor([[1,...原创 2020-03-02 13:45:21 · 135 阅读 · 0 评论 -
Torch & Gym
Torch创建初始化零矩阵且数据类型为long:import torchx=torch.zeros(3, 2, dtype=torch.long)print(x)print (x.size())输出:tensor([[0, 0], [0, 0], [0, 0]])torch.Size([3,2])直接从数据构造张量x = t...原创 2020-02-24 19:25:57 · 437 阅读 · 0 评论 -
建立自己gym 环境---mac版
首先我们建立下面的文件结构:gym-foo/ (文件夹) readme.txt setup.py gym_foo/ (文件夹) __init__.py envs/ (文件夹) __init.py__.py ...原创 2019-10-10 23:28:06 · 744 阅读 · 2 评论