自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 SDN学习记录-带宽最优的路由算法

解决方案:修改shortest_forwarding.py中的 get_port方法。Shortestforwarding.py代码参考。命名为topo.py。

2024-05-24 18:56:26 618

原创 SDN学习记录-RYU执行Shortestforwording.py代码报错解决

2.解决方案是对ryu的topology文件下的switches.py以及/usr/local/lib/python3.8/dist-packages/ryu/topology/switches.py的代码进行修改,4.在该代码基础上加self.delay = 0,位置在PortData类下。修改之后找到ryu/setup.py,执行sudo python setup.py install。1.问题是ryu的topology文件下的switches.py出现错误,3.修改代码如下链接所示,

2024-05-24 16:24:53 179

原创 强化学习记录-离线策略与在线策略、离线强化学习的区别

(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。区别主要在于在线策略算法会直接使用这些反馈数据,而离线策略算法会先将数据存入经验回放池中,需要时再采样。(off-policy)算法的共同点为:智能体在训练过程中可以不断和环境交互,得到新的反馈数据。离线强化学习在从经验池中回放经验后学习到某策略但不更新,而离线策略则会更新。(on-policy)算法和。

2024-05-07 14:54:46 305

原创 强化学习记录-DDPG代码

return np.concatenate(state), action, reward, np.concatenate(next_state), done #concatenate 转换成1行3列。state = torch.FloatTensor(state).unsqueeze(0).to(device)#转换成张量形式并升维。actor.load_state_dict(torch.load(actor_path)) #将训练好的模型参数加载进来。clock.tick(60)#帧率。

2024-05-07 10:19:54 807

转载 强化学习记录-DQN、PPO、DDPG、SAC对比

DQN 算法直接估计最优函数 Q,可以做到离线策略学习,但是它只能处理动作空间有限的环境,这是因为它需要从所有动作中挑选一个值最大的动作。如果动作个数是无限的,虽然可以将动作空间离散化,但这比较粗糙,无法精细控制。来处理动作空间无限的环境并且使用离线策略的算法。构造一个确定性策略,用梯度上升的方法来最大化Q值。Actor-Critic 和 PPO都是在线策略算法,这意味着它们的。PPO 学习随机性策略,而DDPG 则学习一个确定性策略。

2024-05-06 23:31:35 112

转载 强化学习记录-PPO

rewards = (rewards + 8.0) / 8.0 # 和TRPO一样,对奖励进行修改,方便训练。action_dim = env.action_space.shape[0] # 连续动作空间。''' 处理连续动作的PPO算法 '''

2024-05-06 23:08:25 7

原创 强化学习-策略梯度与值函数

Q-learning、DQN 及 DQN 改进算法(Double DQN,Dueling DQN)都是的方法, Q-learning 用于处理有限状态,而 DQN 用来解决连续的问题。强化学习中除了基于值函数的方法,还有的方法。基于的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于的方法则是直接显式地学习一个目标策略,策略梯度是基于策略的方法。基于的方法首先需要将策略参数化。假设目标策略是一个随机性策略,并且处处可微,其中。

2024-05-06 22:22:16 281

原创 强化学习记录-DQN

Q-learning 算法中以矩阵的方式建立了一张存储每个状态下所有动作值的表格,这种用表格存储动作价值的做法只用在环境的状态和动作都是离散的情况。当状态或者动作数量非常大的时候,这种做法并不适用。需要用函数拟合的方法来估计Q值。

2024-04-25 15:23:46 796

原创 SDN网络信息测量

SDN能够获取到当前网络的链路信息、主机信息、交换机信息等。用这些信息可以构建出网络拓扑。网络性能参数包括吞吐量、链路时延、丢包率等,即反映网络的瞬时状态。网络状态参数包括网络的链路信息和拓扑结构,即显示网络的基本信息。网络性能参数的测量需要对流表项进行查询,然后进行数据的处理。网络流量参数是对一个测量周期内的网络流量进行采集和分析。

2024-04-06 19:03:59 64 1

原创 OpenFlow 1.3 的Match 指令

2024-04-06 15:44:00 74 1

原创 虚拟机ubuntu火狐无法上网问题

终端中执行以下命令。

2024-03-21 14:03:00 425 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除