Datawhale深度强化学习基础学习-Task5心得

笔记一:JoyRL 库中的导入路径问题导致的模块无法找到错误

描述:我在使用 JoyRL 库进行强化学习实验时遇到了一系列问题。我尝试在 Acrobot-v1 环境中使用 PPO 算法,但在运行过程中遇到了多个错误。以下是我遇到的主要问题和所采取的步骤:

  1. 自定义策略类的导入问题

    • 我创建了一个自定义策略类 CustomPPOPolicy,继承自 JoyRL 的 PPO 策略类。
    • 在尝试从 joyrl.algos.PPO.policy 导入 PPO 策略类时,遇到了模块无法找到的错误。
  2. JoyRL 库内部的相对导入问题

    • 错误信息:ModuleNotFoundError: No module named 'algos'
    • 这个问题发生在 policy.py 文件中,该文件尝试使用相对路径 from algos.base.networks import ValueNetwork, CriticNetwork, ActorNetwork 进行导入。
    • 我尝试将相对导入更改为绝对导入,但问题仍然存在。
  3. 环境和配置

    • 我的操作系统是 Windows。
    • 我使用的 JoyRL 版本是 0.4.3。
    • 我已经确认 JoyRL 库已正确安装在我的 Python 环境中。

由于这些问题,我无法成功运行我的强化学习实验。我怀疑这些问题可能与 JoyRL 库的内部导入机制有关。我希望能得到一些关于如何解决这些问题的指导,或者了解是否有必要对 JoyRL 库进行一些修改。

笔记二:实现了一个基于深度强化学习的项目,具体来说,使用了双重深度Q网络(Double Deep Q-Network,简称 DDQN)算法:

环境和算法分析

  1. 环境

    • 代码中使用了一个自定义的环境,命名为 ENV,由 ENV_Model.EVN 类创建。
    • 这个环境似乎是为某种项目管理或设计任务定制的,具有特定的规则和目标。
    • 环境的状态空间和动作空间由 n_actionsNum_xNum_y 等参数定义,这些参数决定了环境的大小和可能的动作数量。
  2. 算法

    • 代码使用了 DDQN 算法,这是 Q-Learning 的一种变体,通过使用两个深度神经网络来减少估计值的过高估计。
    • Agent 类由 Agent_Model.Agent 创建,负责学习和决策过程。
    • 算法的关键参数包括批处理大小(batch_size)、学习间隔(learn_gap)和探索率(Agent.epsilon)。

由于时间原因,以后详细补充这部分内容,现附上部分结果:

output_100.csv:

01234567891011121314151617181920212223242526272829303132333435363738394041424344454647
0661151196513612244737211695969565650000000000006551156
11722711112228171011612177718178711051013136135810969111274447
212410111158481013613119128212837829123109641011136651312101111110913139
310121012228101210115710127106127101396128101311677878010128870710131270
438288711961312795111391333101217337817511912110481717471818
51737106612371011473109131113613513101248081313119119127831067783106
6961201096111361311087477111313512712710513121313131113910139912491355124
7728101113101112871077101278131313127810912101271359991384444101244448
861111961217106696131244418844451396560811116956115116651311
955131288561399133373310561233101183310651361113448188111112177
10116111311571810969513123333873311512105118487487477471011121069
11911695961356116473382613661223744106111356135128118013135695
12111399116913651365124481174471591161216695121655695222222
1311061113111112477877410997847111091112117388119513121133109116
14101369913995611123333101333331013111151191281059513109551112800088
15883101112121061391313120831012105123108737389123101196951284116613124
16121787181101313571771011135128101310613121012961399124410111196512872
1791313139611091361169111369337106511691311111311513991091195680105611
1838744438844451284441191365118310511129695996611611114470810
195135122861211059110111211699121100081155111211337101163310121011
204109913114700874105111284101191313512101191351281069078833599965
210800735911513633105136337371337310511111238213128372131210111311
22111112822128101222991210115447101355119121060741012201069136082280
23105911911136512410844847844841013611124895139693370003310666
2413666111370001012120001097000711200010117000771061159127270010
2556511913555135955613611222106125611969659655111111111111
26388084378084377084381061351113135124131396124873384873384
2774447107444101212444881065111313951113121056912101322278865512810
28848478105124779696912000001011115111113873781012731013131313613139
2917810111318109127591311128569121092227815115913527447451244105
3017733861313111191887105512887218101272513121091127873728109612
3112073831069512312111739115613517118011121170996111205115996
3201013512261210119628810552787331112810115127781069127782081013122
3377010120710119968710556991311111111788105591287115513913105111369
34748210984721011748210128482810747277101113691210131356991313655
351110115116599119000071511115961199661195511512111161238101359613
3683807491113696119123338210551113613611121051238107373810731011128
375595951111111111111111111111551151210116131112101359137884410
3818110123612110123481883595131366116127337110966136951131051159
3961356120110669561361166074800612470021061200210111365111312722
402810551151271183771110512105119691207211119111221391112821227772
41338481011119119121395120796512010115591113700088800010127000109
4231091313113747101238410121031059131237337761233109273374111233105
4311651111131065913127111101296561272222710115651391200010591155135
445111218201012110611131211051278110111210121777810111313871091313127105912
451113111112281013131229128101224887105119991311131111513138710513131013122710
4613122210612722105131222848722748722748101151361271011911778717
4717384411061244183844695135611661222135512221311613551313513611
4855999131111176565512444441011651159105512228337229111113611
49210124710119131191281771108187177110961310111244101013135111381012387
50123105512131196591096116581110661211101161011613131199111391356912210
5166611591118225651222111722556965111111111111111111
526951278000710120007885561281011116913131281188710651210912001012
5338822711912221091112227010122286128221059122282272210221011119
5448110512410119513481056948800048105115699612222227222221011
5517101361217109111261272881199512712333787333778333871356111313
56106122711369612110611695136121111011121119139111154106121061112171011
5727811013111312188101312110912781101178105131391210591351313569111313111111
581012087087081059120101231106131231112210123872710699612105111161280
59373105511135120071051200913591152711815911695338111111112111
6061231059613119611178447513124410612844811096612111211187711110
61591161113111069121110651311811811711765956911111111511101312727
62124700010119661112105116121312374713123841081011969121013511513121011136
633774873109612869561210111187611559130106551211123337913551113
6411121884881884109512741051112749111277451313912441013512411912074
6518707811013591261210115937871137810611613121059111313911118783810
667474781061351287410612710111208778105912710136699913115112278110
67122770082109115131195122131351195810613669136136627180011961200
685556124444484651111911611128010513912081807086120801008010119
69117101215612710665913911555951261166512084441008444769115512
705131113121001012877119991391011115967872228710556788222778222
7191312788181091210613959961311556010961111111222871210116131281012277
72000010120000770000781165512107222710101151113131313512781270878
7399612101222278822288811611131277077778078781201012710808101312
7433747855951273333101351151112718181013612188106121710122101112710
75131113111201277870101313913111288388101313513138881781313136121099911912
765139911528447211956136131155123912118351311119611999611811118
775951112333381011111111127810131210991391391151211059118171110717118
78471051245996124333374561169633711165911115333101366116131311
791801066596122251169551113511115912010121696121061117105556995
8072748101228478136124710911124101211013599178444613131111511121091311
81410121012311139131231096139118118489511131192281013555139135118481
821151227101051351313122827101311122810999691311111811111756116612
831112183777110512991113512447837447837448737447837448837
844105661269655131111181155661310655119136651311105511131213661277
853783731113123739121011123178710611131312711013131312171013127171099121
86613111191218101218171012171888176913121851191311131106131210170877
87338071337071559691144444711115115910136956710116667810566
88774448784448128444813124441099556125511511136613111210561391210
8961281824781101151313691311139111191091191237373101110596131312111710
9073101359101191233131207337807331012073391207336120833070733
915122727272106928210562728335136136501059661195666722222
9237800759136512227118561211722711755911513222837222737
9344848811512410138184101310613512712010613138083781011911131388010127
94831012179119121741011135135912728337821066131351365131359447722
95310119912310911111231051312769111399111096511111200010913116510613131111
9611135124791241051218481861247171741051361248085124101195135996
9711728456122741110111246119131246131112741888746991396444811
98101112444881061158810512010991113510651395121110558111011613561283
9912338447331066733105513115955128000010120000139116511106951113

ddqn_obs_local_100_ave:

ddqn_obs_local_100_each:

最终实现基于强化学习的由基本单元组成的简易模型框架:

  • 18
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值