- 博客(6)
- 收藏
- 关注
原创 Python复习——三、Python进阶语法-数据容器
创建空列表:my_list=[ ]创建一个包含多个元素的列表:my_list=[1,"hello",3.14,true].insert是在指定下标前面添加元素,例如print(my_list) # 输出: [1, 2, 10, 3, 4, 5]注意.pop的用法,例如print(my_list,my_list.pop(2))#输出[1, 2, 4, 5] 3它是先执行print()括号内的操作,即my_list.pop(2),删掉了3,改变了列表,再输出列表和.pop的返回值# 创建一个空元组。
2025-07-11 21:23:42
1601
原创 动手学强化学习学习笔记——第2章 多臂老虎机
强化学习是一种试错型学习范式多臂老虎机——简化版强化学习,即不存在状态信息,只有动作和奖励探索与利用问题———“探索拉杆的获奖概率”还是“根据经验选择获奖最多的拉杆”?老虎机有K根拉杆,每根拉杆对应一个奖励的概率分布R,每拉动一次获得一个奖励r,奖励概率分布均未知,目标是在T次拉杆后获得尽可能高的累积奖励需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。至少存在一根拉杆,它的期望奖励不小于拉动其他任意一根拉杆懊悔:为拉动当前拉杆的动作与最优拉杆的期望奖励差。
2025-07-05 21:44:42
1666
原创 Python复习——一、Python基础语法
1.单引号 简短的字符串,其中不包括单引号2.双引号 定义包含单引号的字符串3.三引号 定义多行字符串。
2025-07-05 14:11:10
431
原创 动手学强化学习学习笔记——第1章 初探强化学习
1.决策的重要性2.序贯决策:(1)决策与预测任务不同,决策会带来后果,决策者需对未来负责(2)实现序贯决策的机器学习方法便是强化学习1.强化学习是机器通过与环境交互来实现目标的一种计算方法。2.机器:做决策的机器,即智能体(agent)3.环境(1.3会介绍)4.交互:机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。5.目标:最大化在多轮交互中获得的累积奖励的期望。
2025-07-04 11:40:25
482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅