晴晴_Amanda
码龄8年
关注
提问 私信
  • 博客:196,565
    196,565
    总访问量
  • 88
    原创
  • 879,041
    排名
  • 166
    粉丝
  • 4
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-04-12
博客简介:

qq_38293297的博客

查看详细资料
个人成就
  • 获得232次点赞
  • 内容获得41次评论
  • 获得1,317次收藏
  • 代码片获得240次分享
创作历程
  • 89篇
    2020年
成就勋章
TA的专栏
  • 强化学习
    28篇
  • RL 基础算法
    18篇
  • 论文研读
    7篇
  • tensorflow基础;python基础
    2篇
  • 知识图谱与语义计算
    12篇
  • tensorflow2.0学习
    2篇
  • 文本分类
    9篇
  • 面试集锦
    3篇
  • 智能问答
    13篇
  • 自然语言处理
    2篇
  • 机器学习算法
    3篇
  • 个人随笔
  • 卷积神经网络的python实现
    7篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    tensorflowpytorchnlp聚类集成学习迁移学习分类回归
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

RL策略梯度方法之(十八): Importance Weighted Actor-Learner Architecture (IMPALA)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
1236 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
1086 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RL策略梯度方法之(十六):Twin Delayed Deep Deterministic(TD3)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
1495 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

RL策略梯度方法之(十五):SAC with Automatically Adjusted Temperature

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
596 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

RL策略梯度方法之(十四):Soft Actor-Critic (SAC)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
4938 阅读 ·
1 点赞 ·
0 评论 ·
20 收藏

RL策略梯度方法之(十三): actor-critic using Kronecker-factored trust region(ACKTR)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
693 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

RL策略梯度方法之(十二): actor-critic with experience replay(ACER)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.07 ·
1614 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

RL策略梯度方法之(十一):proximal policy optimization (PPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.06 ·
2566 阅读 ·
2 点赞 ·
4 评论 ·
10 收藏

RL策略梯度方法之(十): Trust region policy optimization (TRPO)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.06 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RL策略梯度方法之(九):Multi-agent DDPG (MADDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.05 ·
3393 阅读 ·
3 点赞 ·
1 评论 ·
41 收藏

RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.05 ·
2726 阅读 ·
4 点赞 ·
2 评论 ·
11 收藏

RL策略梯度方法之(七): Deep Deterministic Policy Gradient(DDPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.05 ·
2191 阅读 ·
4 点赞 ·
0 评论 ·
18 收藏

RL策略梯度方法之(六): Deterministic policy gradient(DPG)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现原理解析算法实现总体流程代码实现
原创
发布博客 2020.10.05 ·
1109 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

RL策略梯度方法之(五): Advantage Actor-Critic(A2C)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析原理解析
原创
发布博客 2020.10.05 ·
3732 阅读 ·
3 点赞 ·
0 评论 ·
20 收藏

RL策略梯度方法之(四): Asynchronous Advantage Actor-Critic(A3C)

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现总体流程代码实现A3C\color{red}A3CA3C :[ paper | code ]原理解析在A3C中,critic 学习值函数,同时多个 actor 并行训练,并不时地与全局参数同步。因此,A3C可以很好地用于并行训练。服务器的每个核都是一个线程,也就是一个平行世界
原创
发布博客 2020.10.04 ·
770 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RL策略梯度方法之(三): Off-Policy Policy Gradient算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现
原创
发布博客 2020.10.04 ·
1634 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

RL策略梯度方法之(二): Actor-Critic算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析策略梯度的直观解释Actor-Critic框架引出GAE算法实现算法流程代码实现原理解析AC算法框架被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常考虑的框架。AC算法起源于策略梯度算法,因此在介绍AC算法时,我们先从策略梯度入手。(其实上篇已经介绍
原创
发布博客 2020.09.22 ·
2279 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

RL策略梯度方法之(一): REINFORCE算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析基于值 的RL的缺陷策略梯度蒙特卡罗策略梯度REINFORCE算法REINFORCE简单的扩展:REINFORCE with baseline算法实现总体流程代码实现原理解析基于值 的RL的缺陷基于价值的深度强化学习方法有它自身的缺点,主要有以下三点:基于价值的强化学习无法很好的处理连续空间
原创
发布博客 2020.09.22 ·
15657 阅读 ·
25 点赞 ·
1 评论 ·
98 收藏

张海峰-从博弈论到多智能体强化学习

文章目录内容摘要群体决策智能研究背景博弈论多智能体强化学习研究展望内容摘要·随着以图像识别为代表的“感知智能”日趋成熟,越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代,群体决策智能将成为一个研究重点。·传统上,博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念,侧重分析理性智能体的博弈结果,即均衡。然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此,近年来兴
原创
发布博客 2020.09.21 ·
3857 阅读 ·
11 点赞 ·
4 评论 ·
72 收藏

IMPALA 分布式框架 学习笔记

以下总结来源于:https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/79292530IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。actor会周期性地暂停探索,将它们已经计算得出的梯度信息分享至中央参数服务器,而后者会对此进行更新。与此不同,IMPALA中的actor不会被用来计算梯度信息。它们只是收集经验,并将这些经.
原创
发布博客 2020.09.15 ·
700 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏
加载更多