- 博客(9)
- 收藏
- 关注
原创 RL学习日志:(Reinforcement Learning for Sequential Decision and Optimal Control)Day3
Classification of RL MethodsprefaceDefinition of RL ProblemsBellman's Principle of OptimalityTwo Kinds of Bellman EquationIndirect RL MethodsPolicy IterationValue IterationDirect RL Methodspreface术语"强化学习"指的是一类问题和一组计算方法。从历史上看,只有试图解决随机决策问题的一些计算方法才被称为强化学习算
2024-04-28 11:04:06 1038
原创 RL学习日志:(Reinforcement Learning for Sequential Decision and Optimal Control)Day2
Four Elements of RL ProblemsprefaceEnvironment ModelState-Action SamplePolicyTabular PolicyParameterized PolicyReward SignalLong-term ReturnValue FunctionSelf-consistency Conditionpreface强化学习(RL)是人工智能和自动控制的一个交叉学科分支。它通常指一组可以为动态环境生成最优决策的策略搜索算法。就像训练宠物时用刺激和
2024-04-25 17:40:37 810 2
原创 RL学习日志:(Reinforcement Learning for Sequential Decision and Optimal Control)Day1
History of RLbackgrandDynamic ProgrammingTrial-and-Error LearningExamples of RL ApplicationsTic-Tac-ToeChinese GoAutonomous VehiclesKey Challenges in Today's RLExploration-Exploitation DilemmaUncertainty and Partial ObservabilityTemporally Delayed RewardIn
2024-04-24 17:06:07 1064 1
原创 算法日志篇 week3
目录@[TOC](目录)B - 求平均年龄 OpenJ_Bailian - 2714C - 判断闰年 OpenJ_Bailian - 2733D - 波兰表达式 OpenJ_Bailian - 2694E - 最大公约数 OpenJ_Bailian - 3248F - 1的个数 OpenJ_Bailian - 3708G - 计算鞍点 OpenJ_Bailian - 3670H - Lab杯 OpenJ_Bailian - 2992I - 菲波那契数列(2) OpenJ_Bailian - 2758J -
2024-02-29 11:46:36 1265
原创 算法日志篇 week2
此题的中文大致意思是给出一个字符串,然后用两种方式来生成另一个字符串,新字符串t要和旧的字符串s前几位上的每一位都相反(0-1或1-0),第一种方式为删掉原字符串中的某几位,第二种方式为交换原字符串中的某几位。此题的解法为:先统计出原字符串内有几个‘0’与‘1’,进行存储,随后对字符串进行遍历,包含如下三种情况:1.原字符串大小为一,此时直接输出1就行。ps:删去。
2024-02-04 19:56:43 950 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人