自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sdu_hao的博客

深度学习与自然语言处理入门与进阶路线

  • 博客(589)
  • 论坛 (1)
  • 收藏
  • 关注

原创 程序人生 | (7) “新一五计划”(博客导航)

个人GithubNLP顶会截稿时间去年9月底,我大四的时候,曾写了一篇题为“一五计划”的博文,这也是我正式写博客以来的第一篇,其中粗浅的表达了我对入门深度学习和自然语言处理的一些看法和学习路线。一年过去了,我正式成为了一名博士研究生,第一个五年正式开始,新的风暴已然出现。在2019年即将结束之际,我觉得有必要对之前的路线做一下更新,因此推出“新一五计划”,与时俱进,保持先进性。“新一五计划...

2019-12-27 22:22:30 655 1

转载 强化学习 | (3) 奖励设计相关论文介绍

原文地址1. 介绍在强化学习中,智能体的目标被形式化表征为一种特殊信号,称为奖励/reward,它通过环境传递给智能体。在每个时刻,reward都是一个单一标量数值。非正式地说,智能体的目标是最大化其收到的总奖励。这意味着需要最大化的不是当前奖励,而是长期的累积奖励。我们可以将这种非正式想法清楚地表述为奖励假设:我们所有的“目标”或“目的”都可以归结为:最大化智能体接收到的标量信号(称之为奖励)累积和的概率期望值。使用奖励信号来形式化目标是强化学习最显著的特征之一。智能体总是学习如何最大化奖励。如

2021-02-22 10:00:39 91

翻译 强化学习 | (1) The Review of Reinforcement Learning

本文翻译自 A (Long) Peek into Reinforcement Learning在本文中,我们将简要介绍强化学习(RL)这个领域,从基本概念到经典算法。近年来,人工智能(AI)领域出现了两个令人振奋的消息。 AlphaGo在围棋游戏中击败了最好的职业人类玩家。 之后扩展的算法AlphaGo Zero在没有人类知识监督学习的情况下,以100-0击败了AlphaGo。 在DOTA2 1v1竞赛中,顶级专业游戏玩家输给了OpenAI开发的机器人。 知道了这些之后,很难不对这些算法背后的魔力-强化

2021-02-04 21:37:04 35

转载 推荐系统 | (4) 可解释推荐系统---知其然,知其所以然

原文地址作者:王希廷 谢幸利用强化学习实现封装式可解释推荐系统单纯的推荐结果和推荐结果+理由的组合,哪个更让你信服?长篇累牍的推荐语和言简意赅的关键词,你更愿意看哪个?这是人们每天都会面对的场景,也是可解释推荐系统研究需要不断优化的问题。在上一篇文章《可解释推荐系统:身怀绝技,一招击中用户心理》中,微软亚洲研究院的研究员王希廷和谢幸介绍了可解释推荐系统的分类、推荐解释生成方法以及面临的机遇和挑战。本文中,研究员从解释的目标出发,结合现有的方法流程,介绍了他们改进过的新的结构,最后也反思了研究有待改进

2020-10-13 10:21:25 260

转载 推荐系统 | (3) 可解释推荐系统---身怀绝技,一招击中用户心理

原文地址原文作者:王希廷、谢幸

2020-10-09 14:42:55 160

转载 推荐系统 | (2) 个性化推荐系统研究热点

原文地址本文作者:谢幸、练建勋、刘政、王希廷、吴方照、王鸿伟、陈仲夏推荐系统作为一种过滤系统,不仅能够帮助用户在海量的信息中快速寻找到自己需要的内容,也能帮助商家把自己的商品更精准地推荐给用户,增强用户与商家之间的交互性。搭建更加有效的个性化推荐系统,对商家和用户都具有更深远的意义。在本文中,微软亚洲研究院社会计算组的研究员们从深度学习、知识图谱、强化学习、用户画像、可解释性推荐等五个方面,展望了未来推荐系统发展的方向。“猜你喜欢”、“购买过此商品的用户还购买过……”对于离不开社交平台、电商、新闻阅读

2020-10-07 17:04:50 717

原创 推荐系统 | (1) 任务分类

推荐系统(recommender system)指的是从用户过去的购买习惯/记录中学习用户的兴趣,从而给用户推荐合适的商品,是一个单轮交互的过程。任务型对话系统(task-oriented dialogue system)通过多轮对话,在对话过程中,捕捉用户的兴趣,完成一个特定的任务,是一个多轮交互的过程。对话推荐系统(conversational recommender system, CRS)由于推荐系统更多的是去关注用户过去的偏好,但是用户当前的兴趣可能已经改变。而对话系统更多的..

2020-10-03 17:26:49 767

转载 机器阅读理解 | (5) 用MRC框架解决各类NLP任务

原文地址详解如何充分发挥先验信息优势,用MRC框架解决各类NLP任务本文将讨论如何将命名体识别、指代消解、关系抽取、文本分类等 NLP 任务转化为 MRC(机器阅读理解)任务,利用 MRC 框架的 query 所蕴含先验信息的优势,不但由此获得效果上的显著提高,还将赋予模型 Domain Adaptation、Zero-shot Learning 等多方面的能力。让我们先梳理一下 MRC 的基础知识。文章目录1. 什么是MRC?2. MRC框架尝试解决的NLP任务MRC框架解决NER任务2.2 M

2020-09-29 11:22:41 372

转载 Shell基础 | (12) 输入/输出重定向

原文地址大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回​​到您的终端。一个命令通常从一个叫标准输入的地方读取输入,默认情况下,这恰好是你的终端。同样,一个命令通常将其输出写入到标准输出,默认情况下,这也是你的终端.重定向命令列表如下:文章目录1. 输出重定向2. 输入重定向3. Here Document4. /dev/null 文件1. 输出重定向重定向一般通过在命令间插入特定的符号来实现。特别的,这些符号的语法如下所示:command1 > file1上面这个

2020-09-24 14:53:54 54

转载 Shell基础 | (11) 文件包含

原文地址Shell文件包含和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。Shell 文件包含的语法格式如下:. filename # 注意点号(.)和文件名中间有一空格或source filename实例创建两个 shell 脚本文件。test1.sh 代码如下:#!/bin/bash# author:菜鸟教程# url:www.runoob.comurl="http://www.runoob.com"test

2020-09-24 14:01:23 42

转载 Shell基础 | (10) 函数

原文地址linux shell 可以用户定义函数,然后在shell脚本中可以随便调用。shell中函数的定义格式如下:[ function ] funname [()]{ action; [return int;]}说明:可以带function fun() 定义,也可以直接fun() 定义,不带任何参数。参数返回,可以显示加:return 返回,如果不加,将以最后一条命令运行结果,作为返回值。 return后跟数值n(0-255下面的例子定义了一个函数并进行调用:#

2020-09-23 16:55:23 47

转载 Shell基础 | (9) 流程控制

原文地址文章目录1. if else2. for 循环3. while 语句4. until循环5. case6. 跳出循环6. case ... esac1. if elseifif 语句语法格式:if conditionthen command1 command2 ... commandN fi写成一行(适用于终端命令提示符):if [ $(ps -ef | grep -c "ssh") -gt 1 ]; then echo "true"; fi

2020-09-22 15:06:31 29

转载 对话系统 | (10) 《Deal or No Deal? End-to-End Learning for Negotiation Dialogues》

原文地址EMNLP2017,论文地址。EMNLP 2017 这篇论文给出的对话场景叫谈判协商(Negotiation),并且他们认为谈判协商既包含合作,又包含对抗竞争。用他们的实验来理解这样一个场景,首先,这个谈判协商旨在两个人之间进行,A 和 B。总共有一定数量的几种物品,A 和 B 需要通过谈判,去分享这些物品。重点在于,同一种物品,对于 A 和 B 的价值是不一样的,且他们无法知晓这个物品对于对方的价值如何。而 A 和 B 都希望尽可能地通过谈判使得自己最后得到的物品总价值更高。分析这样一个场

2020-09-22 10:07:17 68

转载 Shell基础 | (8) test命令

原文地址Shell中的 test 命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试。文章目录1. 数值测试2. 字符串测试3. 文件测试1. 数值测试num1=100num2=100if test $[num1] -eq $[num2]then echo '两个数相等!'else echo '两个数不相等!'fi输出结果:两个数相等!代码中的 [] 执行基本的算数运算,如:#!/bin/basha=5b=6result=$[a+

2020-09-21 11:25:07 41

转载 Shell基础 | (7) printf命令

原文地址上一章节我们学习了 Shell 的 echo 命令,本章节我们来学习 Shell 的另一个输出命令 printf。printf 命令模仿 C 程序库(library)里的 printf() 程序。printf 由 POSIX 标准所定义,因此使用 printf 的脚本比使用 echo 移植性好。printf 使用引用文本或空格分隔的参数,外面可以在 printf 中使用格式化字符串,还可以制定字符串的宽度、左右对齐方式等。默认 printf 不会像 echo 自动添加换行符,我们可以手动添加

2020-09-21 11:11:41 31

转载 Shell基础 | (6) echo命令

原文地址Shell 的 echo 指令与 PHP 的 echo 指令类似,都是用于字符串的输出。命令格式:echo string您可以使用echo实现更复杂的输出格式控制。显示普通字符串:echo "It is a test"这里的双引号完全可以省略,以下命令与上面实例效果一致:echo It is a test显示转义字符echo "\"It is a test\""结果将是:"It is a test"同样,双引号也可以省略显示变量read 命令从标准输入中读取一行

2020-09-20 11:13:18 38

转载 Shell基础 | (5) Shell基本运算符

原文地址Shell 和其他编程语言一样,支持多种运算符,包括:算数运算符关系运算符布尔运算符字符串运算符文件测试运算符原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。expr 是一款表达式计算工具,使用它能完成表达式的求值操作。例如,两个数相加(注意使用的是反引号 ` 而不是单引号 '):#!/bin/bashval=`expr 2 + 2`echo "两数之和为 : $val"执行脚本,输出结果如下所示:两数之

2020-09-20 11:02:57 36

转载 Shell基础 | (4) Shell数组

原文地址数组中可以存放多个值。Bash Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小(与 PHP 类似)。与大部分编程语言类似,数组元素的下标由0开始。Shell 数组用括号来表示,元素用"空格"符号分割开,语法格式如下:array_name=(value1 value2 ... valuen)实例#!/bin/bash# author:菜鸟教程# url:www.runoob.commy_array=(A B "C" D)我们也可以使用下标来定义数组:

2020-09-18 12:42:29 38

转载 Shell基础 | (3) 传递参数

原文地址我们可以在执行 Shell 脚本时,向脚本传递参数,脚本内获取参数的格式为:$n。n 代表一个数字,1 为执行脚本的第一个参数,2 为执行脚本的第二个参数,以此类推……实例以下实例我们向脚本传递三个参数,并分别输出,其中 $0 为执行的文件名(包含文件路径):#!/bin/bash# author:菜鸟教程# url:www.runoob.comecho "Shell 传递参数实例!";echo "执行的文件名:$0";echo "第一个参数为:$1";echo "第二个参数为

2020-09-18 12:31:47 40

转载 Shell基础 | (2) Shell变量

原文地址文章目录1. Shell变量2. Shell 字符串3. Shell数组4. Shell注释1. Shell变量定义变量定义变量时,变量名不加美元符号$,your_name="runoob.com"注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则:命名只能使用英文字母,数字和下划线,首个字符不能以数字开头。中间不能有空格,可以使用下划线(_)。不能使用标点符号。不能使用bash里的关键字(可用help命令查看保留关键字

2020-09-17 17:31:19 42

转载 Shell基础 | (1) Shell简介

原文地址文章目录1. 简介2. Shell环境3. Shell脚本1. 简介Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。2. Shell环境Shell 编程跟 JavaScript

2020-09-17 16:49:05 47

转载 强化学习基础 | (19) AlphaGo Zero强化学习原理

原文地址在基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。1. AlphaGo Zero模型基础AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高。主要使用了两个模型,第一个就是我们上一节介绍MCTS树结构,另一个是

2020-09-10 10:35:51 126

转载 强化学习基础 | (18) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

原文地址在基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。本篇主要参考了UCL强化学习课程的第八讲,第九讲部分。1. 基于模拟的搜索概述什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索。模拟我们在上一篇也讨论过,就是基于强化学习模型进行采样,得到样本数据。但是这个数据

2020-09-09 11:40:26 176

转载 强化学习基础 | (17) 基于模型的强化学习与Dyna算法框架

原文地址在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。1. 基于模型的强化学习简介基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态s下采取动作

2020-09-09 10:36:16 92

转载 强化学习基础 | (16) 深度确定性策略梯度(DDPG)

原文地址在A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)。本篇主要参考了DDPG的论文和ICML 2016的deep RL tutorial。1. 从随机策略到确定性策略从DDPG这个名字看,它是由D(Deep)+D(Determ

2020-09-08 16:10:42 169

转载 强化学习基础 | (15) A3C

原文地址在Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。本文主要参考了A3C的论文,以及ICML 2016的deep RL tutorial。1. A3C的引入上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参,最后的CartPo

2020-09-08 11:53:16 50

转载 强化学习基础 | (14) Actor - Critic

在策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。在本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。本文主要参考了Sutton的强化学习书第13章和UCL强化学习讲义的第7讲。1. Actor-Critic算法简介Actor-Crit

2020-09-07 15:25:54 60

转载 Lee Hung-yi强化学习 | (8) Imitation Learning

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址上一篇笔记讲了reward很稀疏的情况,但是在实际中,可能问题还会更进一步:很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料/数据,让agent跟着做。本文会讲两个Imitation Learning的方法:1)Behavior Cloning2)Inverse Reinforcement Learning (IRL)1.

2020-09-03 15:11:08 59

转载 Lee Hung-yi强化学习 | (7) Sparse Reward

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。所以下面介绍几种方法来处理这种Spars

2020-09-03 14:40:24 150

转载 Lee Hung-yi强化学习 | (6) Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址1. 回顾Policy GradientG表示在状态s采取动作a一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为在某一个state采取同一个action,最后的结果不一定相同。因为state的变化也是有随机性的。虽然经过多次实验后,可能会发现G最后会变成一个比较稳定的分布,那么理论上收集足够多的数据就能解决这一问题。但是因为policy gradie

2020-09-03 11:07:33 48

转载 Lee Hung-yi强化学习 | (5) Q-learning用于连续动作 (NAF算法)

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。因为如果action是离散的几个动作,那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的,此时action就是一个vector,vector里面又都有对应的value,那就没办法穷举所有的action去算Q-

2020-09-02 15:23:06 116

转载 Lee Hung-yi强化学习 | (4) Q-learning更高阶的算法

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址1. Double DQN(DDQN)DQN的Q-value往往是被高估的,如下图:上图为四个游戏的训练结果的对比。橙色的曲线代表DQN估测的Q-value,橙色的直线代表DQN训练出来的policy实际中获得的Q-value.蓝色的曲线代表Double DQN估测的Q-value,蓝色的直线代表Double DQN训练出来的policy实际中获得的Q-value.由图可以看出两

2020-09-02 10:46:54 63

转载 Lee Hung-yi强化学习 | (3) Q-learning(Basic Idea)

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址1. Q-LearningQ-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为/动作,只是对现有的 actor π\piπ,评价它的好坏。2. Value-Functioncritic 给出了一个 value function Vπ(s)V^\pi(s)Vπ(s),代表在

2020-09-01 11:16:24 50

转载 Lee Hung-yi强化学习 | (2) Proximal Policy Optimization算法(PPO)

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址1. On-policy vs. Off-policy所谓 on-policy (左图)指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,即 agent 一边和环境互动,一边学习;而 off-policy (右图)指我们学习的 agent 与环境交互的 agent 是不同的,即 agent 通过看别人玩游戏来学习。on-policy的过程是这样的:1

2020-08-31 21:24:58 53

转载 Lee Hung-yi强化学习 | (1) Policy Gradient

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件1. 回顾在强化学习中,主要有三个部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制。唯一能调整的是actor的policy,使actor能获得最大的reward。policy是actor中起决策作用的一个东西,决定了actor的行为。可以理解为是一个函数,输入是状态(st

2020-08-31 16:36:27 69

转载 对话系统 | (9) 《Incremental Learning from Scratch for Task-Oriented Dialogue Systems》

本篇博客主要参考/节选中科院自动化所王唯康博士的博士论文《任务型对话系统中对话管理方法研究》。《Incremental Learning from Scratch for Task-Oriented Dialogue Systems》文章目录1. 引言2. 相关工作3. 基于增量学习的对话系统3.1 对话上下文表征模块3.2 不确定性估计模块3.3 在线学习模块1. 引言本文提出了一个基于增量学习框架的任务型对话系统设计方法。设计任务型对话系统的第一步是明确系统所能解决的用户需求。如果开发者在训练系

2020-08-28 21:26:29 128

转载 对话系统 | (8) 任务型对话系统概述

本篇博客主要参考/节选中科院自动化所王唯康博士的博士论文《任务型对话系统中对话管理方法研究》。文章目录1. 概述2. 基于管道的任务型对话系统2.1 语言理解模块2.2 对话管理模块2.3 语言生成模块3. 端到端的任务型对话系统3.1 基于检索的任务型对话系统3.2 基于生成的任务型对话系统4. 任务型对话语料收集5. 用户仿真技术6. 问题分析1. 概述早期任务型对话系统基于规则实现,实现比较简单并在简单的对话任务中取得了不错的效果,但难以适用于复杂的对话任务,规则的撰写和维护需要消耗大量的人力

2020-08-27 17:25:07 673

转载 对话系统 | (7) 对话系统简介

本篇博客主要参考/节选中科院自动化所王唯康博士的博士论文《任务型对话系统中对话管理方法研究》。文章目录1. 对话系统分类2. 现有对话管理方法的不足1. 对话系统分类设计目的根据设计目的的不同,人机对话系统可以划分为三类:聊天机器人(chat bots)/闲聊型对话系统(微软小冰等)、问答系统(question and answering systems)和任务型对话系统(task-oriented dialogue systems,阿里小蜜等)。聊天机器人的设计目的是尽可能让用户同系统进行更

2020-08-27 10:46:14 162

转载 强化学习基础 | (13) 策略梯度(Policy Gradient)

原文地址在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。本文参考了Sutton的强化学习书第13章和策略梯度的论文。文章目录1. Value Based强化学习方法的不足2. Policy

2020-08-27 09:47:11 222

转载 强化学习基础 | (12) Dueling DQN

原文地址作者:刘建平在Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文< Dueling Network Architectures for Deep Reinforcement Learning>(ICML 2016)。文章目录1. Dueling DQN的优化点考虑2. Due

2020-08-26 21:22:15 80

空空如也

CoreJT的留言板

发表于 2020-01-02 最后回复 2020-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除