qq_43675321-CSDN博客

原创斯坦福CS234——（8）梯度策略1

因此，在这些情况下，通常会使用基于环境反馈的闭环策略（Closed-loop policy），如基于价值函数或基于策略的方法，来动态地调整和优化智能体的行为。在这个例子中，开环策略是根据先验的道路地图和交通规则预先计划的，车辆按照计划好的轨迹和速度行驶，不需要实时地根据周围车辆的运动状态进行调整。在这种情况下，开环策略可以是预先规划的路径和速度曲线，基于车辆当前的位置、速度和道路信息，车辆可以直接按照预先规划的路径和速度来执行操作，而不需要实时地考虑周围车辆的行为或者路面的状况。

2024-02-29 18:42:26 665 1

原创斯坦福CS234——（7）模仿学习

Goal inference” 指的是从观察到的行为和环境中推断出个体或代理的目标、意图或目的的过程。在人工智能和机器学习中，目标推断通常涉及利用观察到的数据和模型来推断智能体、机器人或其他代理的行为背后的潜在目标或意图。通过推断代理的目标或意图，我们可以更好地理解其行为，从而更好地与其交互、协作或设计智能决策系统。在强化学习中，goal inference 通常用于理解代理在环境中的行为，并在此基础上进行决策。通过推断出代理的目标或期望结果，可以更好地指导代理的行动选择，以使其更有效地实现预定的目标。

2024-02-28 21:07:06 297 1

原创斯坦福CS234——（6）Deep Q Learning

Identifiability（可辨认性）是一个统计学和机器学习领域的概念，用于描述模型参数是否可以从观察到的数据中唯一地确定。Identifiability 主要关注的是模型参数的可确定性，而不是特定算法或网络结构的性能。因此，Dueling DQN 的性能和 Identifiability 之间没有直接的关系。

2024-02-28 13:35:14 278 1

原创斯坦福CS234——（5）价值函数逼近

在计算机科学领域中，“Oracle” 通常指代一个具有特定知识或功能的程序、服务或系统，用于提供信息、答案或指导，例如数据库系统中的查询处理器、编程语言中的编译器等。如果按照上图所示，则我们可以通过SGD求解。

2024-02-27 15:27:03 291 1

原创斯坦福CS234——（4）无模型控制

在 GLIE 策略中，随着时间的推移，探索的概率会逐渐减小，而贪婪行为的概率会逐渐增加。但是，随机初始化可能导致训练过程中的不稳定性，因为初始值的选择可能会影响算法的收敛性。总的来说，Q-learning 的初始化是一个重要的超参数，需要根据具体的问题和算法特性来选择合适的初始化方法。2.在探索率趋近于零的同时，智能体仍会以一定的概率进行探索，以确保对环境的全面了解。这是一种简单的初始化方法，但可能会导致智能体在开始阶段无法获得有用的信息，因为所有动作的 Q 值都相同。（这里，我们假设动作空间是连续的）

2024-02-24 15:06:36 892

原创斯坦福CS234增强学习——（3）无模型策略评估

情节式马尔可夫决策过程（Episodic Markov Decision Process）是马尔可夫决策过程（MDP）的一种变体，其中代理与环境的交互被划分为不同的片段或者阶段，每个片段都以终止状态结束。在非情节式MDP中，任务可能是持续性的，智能体与环境之间的交互没有明确的开始或结束点，任务可能是无限期的。在强化学习中，这意味着智能体面临的环境在时间上不是固定不变的，而是随着时间的推移可能发生变化。例如，一个固定的迷宫问题，智能体的任务是找到迷宫的出口，而这个任务目标在整个训练过程中保持不变。

2024-02-22 18:18:16 889 1

原创 [python小知识]利用==初始化布尔数组

【代码】[python小知识]利用==初始化布尔数组。

2023-09-13 21:24:59 173 2

原创 [pytorch函数合集]torch.index_select()

如上如所示，第一个参数arr1是我们需要操作的数组；第二个参数是需要操作的维度，维度是0为按行操作，维度是1为按列操作；这次讲解的函数是scatter_max()，该函数有4个参数，其中前三个分别为，（1）将要被操作的目标数组arr1（2）设定操作数组arr1哪个维度的参数dim（3）目录函数（我自己起的名）index。

2023-09-13 20:38:18 120 1

原创 [pytorch函数合集]torch_scatter.scatter_max()

这次讲解的函数是scatter_max()，该函数有4个参数，其中前三个分别为，（1）将要被操作的目标数组arr1（2）将arr1数组进行分组的数组arr2（3）设定操作数组arr1哪个维度的参数dim（4）显示几组数据的参数dim_size。

2023-09-13 20:06:23 914 2

原创斯坦福CS234增强学习——（2）当你已知世界模型

在这部分，我们假定我们的policy是确定性的，在该情况下，为了找到最优的策略，我们需要采用一定的方法，首先，我们当然可以采用枚举法，但是策略的数量是指数级别的，很难在有限时间内完成，因此，我们提出了策略迭代（Policy Iteration）：首先我们随机初始化一种policy，然后激素三其价值函数，而后进行。按照我们给出的这些定义，我们可以看到，当我们的policy给定时，马尔可夫决策过程将退化为马尔可夫奖励过程，如此一来，我们可以利用上述马尔可夫奖励过程的技术来解决马尔可夫决策过程问题。

2023-04-28 18:56:53 316 1

原创循环神经网络RNN（Rerrent Neural Network）

在语言模型中，由于历史原因，采用困惑度exp⁡(π)来衡量，π是交叉熵，则困惑度为1是完美，困惑度为无穷大最糟糕（困惑度为n代表有n个候选词）对应的输出，比如根据我们的观察，当模型的输入是“你”的时候，我们希望得到的输出为“好”。(4)tag生成：给定一个句子，输出每个词的类别（名词，动词…参数含义：g是将所有的梯度合并到一个向量之中。(1)文本生成：给一个初始词，然后不断输出；是隐变量h之间的权重，包含时序信息；是输入x到隐变量h的权重；其中的参数的含义：ϕ是激活函数；(3)问答，机器翻译。

2023-04-08 22:45:48 95

原创斯坦福CS234增强学习——（1）简介

增强学习的关键所在，尤其是第2，3点是将增强学习与其他机器学习进行区分的重要因素。如下图所示，分别对其进行了阐述。这里我们定义了policy的含义：policy是指从过去的经验到决策行为的一种映射，较为严格的形式是，给定状态下的动作分布。agent只接触了world的一部分，比如作为一个人，眼睛只能看一部分世界，永远看不到后脑勺。

2023-04-08 18:14:55 401

qq_43675321的博客