- 博客(5)
- 收藏
- 关注
原创 优化求解器
网址:https://www.ibm.com/cn-zh/products/ilog-cplex-optimization-studio。网址:https://www.lindo.com/index.php/products/lingo-and-optimization-modeling。网址:https://www.fico.com/en/products/fico-xpress-optimization。GLPK:开源的求解器。网址:https://www.gnu.org/software/glpk。
2024-03-11 15:13:36 372 1
原创 用于优化问题的建模语言
它提供了简洁而强大的语法,可以描述线性规划、整数规划、非线性规划等各种类型的优化问题,并且可以与多种优化求解器进行集成。: GAMS 是另一种流行的优化建模语言,它提供了高度抽象的语法来描述复杂的优化问题。它提供了丰富的功能来描述线性规划、整数规划、非线性规划等各种类型的优化问题,并且可以与多种优化求解器进行交互。它提供了直观而灵活的语法,可以描述各种类型的优化问题,并且可以利用 Julia 的高性能计算能力进行求解。它提供了简洁而直观的语法,可以描述凸优化问题,并且可以利用多种优化求解器进行求解。
2024-03-11 14:54:50 409 1
原创 强化学习算法
常见的策略有 ε-greedy 策略,即以 ε 的概率随机选择动作,以 1-ε 的概率选择具有最大Q值的动作。执行动作(Action Execution):根据选择的动作,让智能体执行该动作,从当前状态转移到下一个状态,并获取环境的反馈,包括奖励(Reward)和下一个状态(Next State)。策略提取(Policy Extraction):在训练完成后,基于学习到的Q值表格,可以通过选择具有最大Q值的动作作为最优策略,用于在实际应用中做出动作选择。
2024-03-08 18:17:53 469 1
原创 深度强化学习
3.evaluation:价值网络给当前状态打分为v,玩游戏到结束收到奖励r,把(v+r)/2当作动作a的打分。N(a)为动作a被探索的次数,随着a探索次数越来越多,分数主要有Q(a)决定。其中Q(a)为动作价值(初始默认为0,初始完全由策略网络决定)把s(t+1)给价值网络获得分数v(s(t+1);把一个动作后面的所有状态的得分求平均作为当前动作a的得分Q(a)4.backup:用(v+r)/2更新动作价值函数。策略学习:用神经网络来近似策略函数Π(a|s)(2)选择分数最高的动作a。
2024-03-08 13:42:03 398 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人