gghnb-CSDN博客

原创梯度下降算法的理解（为啥深度学习要用到梯度下降）---神经网络详解

2024-03-18 11:14:22 331

原创优化求解器

网址：https://www.ibm.com/cn-zh/products/ilog-cplex-optimization-studio。网址：https://www.lindo.com/index.php/products/lingo-and-optimization-modeling。网址：https://www.fico.com/en/products/fico-xpress-optimization。GLPK：开源的求解器。网址：https://www.gnu.org/software/glpk。

2024-03-11 15:13:36 372 1

原创用于优化问题的建模语言

它提供了简洁而强大的语法，可以描述线性规划、整数规划、非线性规划等各种类型的优化问题，并且可以与多种优化求解器进行集成。: GAMS 是另一种流行的优化建模语言，它提供了高度抽象的语法来描述复杂的优化问题。它提供了丰富的功能来描述线性规划、整数规划、非线性规划等各种类型的优化问题，并且可以与多种优化求解器进行交互。它提供了直观而灵活的语法，可以描述各种类型的优化问题，并且可以利用 Julia 的高性能计算能力进行求解。它提供了简洁而直观的语法，可以描述凸优化问题，并且可以利用多种优化求解器进行求解。

2024-03-11 14:54:50 409 1

原创强化学习算法

常见的策略有 ε-greedy 策略，即以 ε 的概率随机选择动作，以 1-ε 的概率选择具有最大Q值的动作。执行动作（Action Execution）：根据选择的动作，让智能体执行该动作，从当前状态转移到下一个状态，并获取环境的反馈，包括奖励（Reward）和下一个状态（Next State）。策略提取（Policy Extraction）：在训练完成后，基于学习到的Q值表格，可以通过选择具有最大Q值的动作作为最优策略，用于在实际应用中做出动作选择。

2024-03-08 18:17:53 469 1

原创深度强化学习

3.evaluation：价值网络给当前状态打分为v，玩游戏到结束收到奖励r，把（v+r）/2当作动作a的打分。N（a）为动作a被探索的次数，随着a探索次数越来越多，分数主要有Q（a）决定。其中Q（a）为动作价值（初始默认为0，初始完全由策略网络决定）把s（t+1）给价值网络获得分数v（s（t+1）；把一个动作后面的所有状态的得分求平均作为当前动作a的得分Q（a）4.backup：用（v+r）/2更新动作价值函数。策略学习：用神经网络来近似策略函数Π（a|s）（2）选择分数最高的动作a。

2024-03-08 13:42:03 398 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 梯度下降算法的理解（为啥深度学习要用到梯度下降）---神经网络详解

原创 优化求解器

原创 用于优化问题的建模语言

原创 强化学习算法

原创 深度强化学习

空空如也

空空如也

原创梯度下降算法的理解（为啥深度学习要用到梯度下降）---神经网络详解

原创优化求解器

原创用于优化问题的建模语言

原创强化学习算法

原创深度强化学习