自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 梯度下降算法的理解(为啥深度学习要用到梯度下降)---神经网络详解

2024-03-18 11:14:22 331

原创 优化求解器

网址:https://www.ibm.com/cn-zh/products/ilog-cplex-optimization-studio。网址:https://www.lindo.com/index.php/products/lingo-and-optimization-modeling。网址:https://www.fico.com/en/products/fico-xpress-optimization。GLPK:开源的求解器。网址:https://www.gnu.org/software/glpk。

2024-03-11 15:13:36 372 1

原创 用于优化问题的建模语言

它提供了简洁而强大的语法,可以描述线性规划、整数规划、非线性规划等各种类型的优化问题,并且可以与多种优化求解器进行集成。: GAMS 是另一种流行的优化建模语言,它提供了高度抽象的语法来描述复杂的优化问题。它提供了丰富的功能来描述线性规划、整数规划、非线性规划等各种类型的优化问题,并且可以与多种优化求解器进行交互。它提供了直观而灵活的语法,可以描述各种类型的优化问题,并且可以利用 Julia 的高性能计算能力进行求解。它提供了简洁而直观的语法,可以描述凸优化问题,并且可以利用多种优化求解器进行求解。

2024-03-11 14:54:50 409 1

原创 强化学习算法

常见的策略有 ε-greedy 策略,即以 ε 的概率随机选择动作,以 1-ε 的概率选择具有最大Q值的动作。执行动作(Action Execution):根据选择的动作,让智能体执行该动作,从当前状态转移到下一个状态,并获取环境的反馈,包括奖励(Reward)和下一个状态(Next State)。策略提取(Policy Extraction):在训练完成后,基于学习到的Q值表格,可以通过选择具有最大Q值的动作作为最优策略,用于在实际应用中做出动作选择。

2024-03-08 18:17:53 469 1

原创 深度强化学习

3.evaluation:价值网络给当前状态打分为v,玩游戏到结束收到奖励r,把(v+r)/2当作动作a的打分。N(a)为动作a被探索的次数,随着a探索次数越来越多,分数主要有Q(a)决定。其中Q(a)为动作价值(初始默认为0,初始完全由策略网络决定)把s(t+1)给价值网络获得分数v(s(t+1);把一个动作后面的所有状态的得分求平均作为当前动作a的得分Q(a)4.backup:用(v+r)/2更新动作价值函数。策略学习:用神经网络来近似策略函数Π(a|s)(2)选择分数最高的动作a。

2024-03-08 13:42:03 398 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除