じょりゅう
码龄6年
关注
提问 私信
  • 博客:18,937
    视频:10
    18,947
    总访问量
  • 44
    原创
  • 62,423
    排名
  • 304
    粉丝
  • 5
    铁粉

个人简介:一个人要快乐的读博

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-05-15
博客简介:

longgegeo的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    164
    当月
    4
个人成就
  • 获得250次点赞
  • 内容获得21次评论
  • 获得315次收藏
  • 代码片获得973次分享
创作历程
  • 14篇
    2024年
  • 34篇
    2023年
  • 3篇
    2021年
成就勋章
TA的专栏
  • 仿真
    7篇
  • leetcode算法挑战
  • python基础与面向对象
    23篇
  • 《边做边学深度强化学习:PyTorch程序设计实践》
    9篇
  • SCI英文写作
    7篇
兴趣领域 设置
  • Python
    pythonnumpyscipypandasmatplotlibcondaipython
  • 数据结构与算法
    算法贪心算法动态规划排序算法kmeansleetcode模拟退火算法随机森林支持向量机启发式算法近邻算法
  • 云原生
    docker
  • 网络与通信
    5G信息与通信
  • 服务器
    linuxubuntu
  • 学习和成长
    面试程序人生改行学it程序员创富
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

利用LSTM预测股价走势

学习LSTM看到的一个有意思的例子,记录一下。
原创
发布博客 2024.12.13 ·
254 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——6.2DDQN

重新实现函数update_target_q_function,在其中执行Brain类的函数update_target_q_network,在Environment类的试验(episode)结束时,执行Agent类的函数update_target_q_function。Dueling Network是一种在动作价值函数输出层之前增加一层,用于输出状态价值V(s)和优势函数A(s,a) = Q(s,a)-V(s)的方法,学习状态价值V(s)时,能独立于动作而学习状态价值V(s),具有提高学习性能的优点。
原创
发布博客 2024.01.26 ·
1227 阅读 ·
20 点赞 ·
1 评论 ·
30 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——6.3Dueling Network

实际上,adv的大小是[minibatch的大小×动作类型的数量],val的大小是[minibatch的大小×1]。因此,在求val时,使用expand调整它的大小,使其成为[minibatch的大小×动作的数量]。在Net类的初始化函数中,与DDQN类似地构建输入层fc1和第一个隐藏层fc2,在最后创建与Advantage有关的层fc3_adv和与状态价值有关的层fc3_v。组成的部分,和该动作确定的部分。相关的网络连接参数,学习所需的实验轮数比DQN更少,随着动作选择的增加,优势更加明显。
原创
发布博客 2024.01.26 ·
1605 阅读 ·
23 点赞 ·
0 评论 ·
34 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——5深度强化学习DQN

在表格表示的Q学习中,行号表示智能体的状态,列号对应智能体的动作,表格存储的时动作价值Q(s,a),这种表示的问题是,随着状态变量类型数量增加,每个变量被精细的离散化的话,表格中的行数会变得很大,如果以图像作为状态,每个像素对应于状态变量,50像素的方哥具有2500多个状态变量,用表格表示的强化学习解决大量状态的任务是不显示的。第3章解释的表格表示的Q学习中,Brain类有一个表,但这里有一个神经网络,使用函数replay和函数decision_action。基本上与第3章中的Q学习相同,这里有一点变化。
原创
发布博客 2024.01.25 ·
1017 阅读 ·
20 点赞 ·
0 评论 ·
26 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——2.2迷宫和智能体的实现

最近在看一本书《边做边学深度强化学习:PyTorch程序设计实践》小川雄太郎,写的挺好的,将书中的代码敲了一下。
原创
发布博客 2024.01.25 ·
2127 阅读 ·
45 点赞 ·
0 评论 ·
53 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——2.3.2策略迭代法和价值迭代法

2.2节中使用的是随机迭代。让智能体学习向目标前进的方式主要有两种方式:策略迭代,更快到达目标的策略所执行的动作最重要;价值迭代:从目标反向计算在目标前一步、前两步的位置,一步一步引导智能体,给状态也附加价值(优先级)本节中对参数到策略的转换函数进行修改,用softmax函数。是学习速率,如果太小,学习就很慢,太大就无法正常学习,是一个参数,用于确定在状态sj下采取aj的概率。是负数也可以求出策略,指数函数只输出正值。是反温度,反温度越小,行为越随机。是实现目标所采取的总步数。
原创
发布博客 2024.01.25 ·
914 阅读 ·
21 点赞 ·
0 评论 ·
23 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——2.4~2.5Sarsa的实现

贪婪法:采取Q值最大的动作,在没有正确求得Q值时这种方法,会导致根据随机生成的动作价值的初始值确定动作,可能无法很好地学习,比如S0位置每次向右移动,因此,我们以一定的概率。价值迭代法受限需要定义价值,生活中价值的确定需要货币的概念,比如钻石换成多少人民币。在行为经济学里,人们倾向对未来价值打超过必要的折扣,人类的时间折扣率受到大脑纹状体区域何血清素的影响。结合利率何复利效应,考虑未来的总奖励时,也将折扣率考虑进来,使用累计折扣奖励表示。由于学习过程尚未求得正确的动作价值函数,该等式不成立,等式两边的差。
原创
发布博客 2024.01.25 ·
1011 阅读 ·
21 点赞 ·
0 评论 ·
19 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——2.6.1Q learning

来更新动作价值函数Q,因此Sarsa算法的特征之一是Q更新依赖于求取。下动作价值函数中的最大值来进行更新,由于Sarsa使用下一个动作。贪婪法产生的随机性不用于更新公式,Q的收敛优于Sarsa。和Sarsa不同的就是动作价值函数的更新公式不同。Sarsa更新时需要求取下一步动作。的策略,策略依赖型特征。用于更新,Q学习使用状态。
原创
发布博客 2024.01.25 ·
1069 阅读 ·
21 点赞 ·
0 评论 ·
23 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——3.2~3.4倒立摆CartPole

gym.make是启动一个openai环境游戏的指令,执行时,首先env.reset()初始化环境,返回初始状态,将其存储在变量obeservation之中,env.step(action)是将游戏环境推进一步的指令,action=0对应于将小车推向左侧,1对应于推向右侧,输出5个变量,reward是即时奖励,小车在[-2.4,2.4]范围内且杆未超过20.9°则奖励为1,否则为0。done是一个变量,结束为True,info包含调试等所需的信息。
原创
发布博客 2024.01.25 ·
522 阅读 ·
6 点赞 ·
0 评论 ·
7 收藏

《边做边学深度强化学习:PyTorch程序设计实践》——4使用pytorch进行深度学习

这个模型可以理解为神经元和神经元在称为突触的部分功能性连接,“高尔基理论”认为神经元在突触处时物理上直接连接的,二“卡哈尔理论”认为两者在突触上没有物理连接,是间接连接的,比如乙酰胆碱、多巴胺和GABA的神经递质,神经递质的传递时称为“激发”的信息传递。那么h1的输入之和就是3×1+2×3+1×(-5)=4类似地,h2的输入之和为3×2+2×(-4)+1×(-6)=-8在隐藏层中,此输入的总和由ReLU转换,因此h1的输出为4,h2的输出为0。y2的输出是:2×3+0×7=6所以输出y是(-2,6)。
原创
发布博客 2024.01.25 ·
1140 阅读 ·
14 点赞 ·
0 评论 ·
27 收藏

movie_cartpole

发布视频 2024.01.24

课程16:Dueling-Network解决捕鱼者游戏

同时强化学习游戏领域用的比较多,其他方向看起来都没太大成果,对于博主设置的捕鱼游戏来说,利用keras进行深度强化学习,平均奖励在-100左右(吃到食物25,移动-1,碰到敌人-300)甚至不如。利用q table效果好,可能是nbsteps=100000,步骤数太大加上奖励固定,碰到敌人惩罚太高,以至于没有学到很好的规律,对于强化学习来讲,奖励的设置非常重要。,进行了修改,自己写对应方向强化学习代码的时候也可以参考keras库,比较简单。
原创
发布博客 2024.01.09 ·
364 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

课程15:DQN完成捕食者游戏

进阶,利用深度神经网络来近似Q表,避免维度灾难。配合原视频学习效果更佳。
原创
发布博客 2024.01.09 ·
523 阅读 ·
9 点赞 ·
0 评论 ·
6 收藏

课程14:捕食者游戏进阶——按照gym标准书写

EPISODES = 30000 # 局数SHOW_EVERY = 3000 # 定义每隔多少局展示一次图像# 智能体的类,有其 位置信息 和 动作函数def __init__(self,size): # 随机初始化位置坐标return f'# 智能体的类,有其 位置信息 和 动作函数 class Cube : def __init__(self , size) : # 随机初始化位置坐标 self . size = size。
原创
发布博客 2024.01.09 ·
459 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

课程13:简单的捕食者游戏(Q leaning)

SIZE = 10 #区域大小EPISODES = 30000 #局数SHOW_EVERY = 3000 #定义每隔多少局展示一次图像FOOD_REWARD = 25 #agent获得食物的奖励ENEMY_PENALITY = 300 #遇上对手的惩罚MOVE_PENALITY = 1 #遇上敌人的惩罚epsilon = 0.6 #抽取的概率,epsilon-greedy,强化学习随机是必须的,才能让对手猜不到你在干什么,但这个概率逐步变小。
原创
发布博客 2024.01.08 ·
503 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

代码学习:When Learning Joins Edge: Real-time Proportional Computation Offloading via Deep Reinforcement

学习文章原文如下:https://ieeexplore.ieee.org/document/8975787/共两个文件,主文件run_this.py,强化学习DQN模块RL_brain.py。
原创
发布博客 2023.12.25 ·
609 阅读 ·
6 点赞 ·
2 评论 ·
8 收藏

计算卸载学习代码

计算卸载代码学习
原创
发布博客 2023.12.13 ·
926 阅读 ·
11 点赞 ·
1 评论 ·
15 收藏

利用tensorflow2环境跑tensorflow1代码

tf.disable_v2_behavior(): 禁用TensorFlow的v2行为,这意味着代码将使用TensorFlow的旧版本(v1)的行为,而不是新版本(v2)的行为。设置环境变量KMP_DUPLICATE_LIB_OK为TRUE,用于避免在使用Intel MKL库时出现的一些问题,允许库重复加载。import tensorflow.compat.v1 as tf: 导入TensorFlow的v1版本,并将其命名为tf。
原创
发布博客 2023.12.11 ·
660 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法

发布资源 2023.11.08 ·
zip

07.1-面向对象基础

Python2中类分为:经典类 和 新式类语法class 类名():代码......注意:类名要满足标识符命名规则,同时遵循大驼峰命名习惯。体验print('我会洗衣服')拓展:经典类不由任意内置类型派生出的类,称之为经典类class 类名:代码......地瓜的属性被烤的时间地瓜的状态添加的调料地瓜的方法被烤用户根据意愿设定每次烤地瓜的时间判断地瓜被烤的总时间是在哪个区间,修改地瓜状态添加调料用户根据意愿设定添加的调料将用户添加的调料存储显示对象信息。
原创
发布博客 2023.11.05 ·
78 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多