自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sdu_hao的博客

深度学习与自然语言处理入门与进阶路线

  • 博客(601)
  • 收藏
  • 关注

原创 程序人生 | (7) “新一五计划”(博客导航)

个人GithubNLP顶会截稿时间去年9月底,我大四的时候,曾写了一篇题为“一五计划”的博文,这也是我正式写博客以来的第一篇,其中粗浅的表达了我对入门深度学习和自然语言处理的一些看法和学习路线。一年过去了,我正式成为了一名博士研究生,第一个五年正式开始,新的风暴已然出现。在2019年即将结束之际,我觉得有必要对之前的路线做一下更新,因此推出“新一五计划”,与时俱进,保持先进性。“新一五计划...

2019-12-27 22:22:30 1291 2

转载 预训练语言模型 | (6) 浅谈Prompt的前世今生

原文链接导读:本文的目标是对近期火爆异常的Prompt相关研究作一些追溯和展望,内容主要参考论文《Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing》,并掺杂了笔者的一些个人见解。另外,封面及文中使用的图片均截取自该论文,转载请注明出处。文章目录1. Prompt的产生和兴起2. 什么是Prompt3. Prompt的设计Prompt的形状手工设计模

2022-02-21 17:04:51 2298

转载 强化学习 | (5) 进化策略

原文链接本文中,作者用一些简单的视觉案例解释了进化策略(Evolution Strategies)的工作方式,其中包括了简单进化策略、简单遗传算法、CMA-ES、自然进化策略以及 OpenAI 的进化策略,并给出了形象的动态图过程展示。本文尽量简化了公式,如果读者想理解更多的细节,提供了原始文章的链接。在文章中,我将展现如何将这些算法应用到诸如 MNIST、OPENAI Gym、Roboschool 和 PyBullet 等多种环境中。文章目录简介什么是进化策略?简单进化策略简单遗传算法协方差矩阵适

2021-12-01 15:25:08 1740

转载 多模态机器翻译 | (1) 简介

摘录自 机器翻译 基础与模型 东北大学文章目录1. 背景2. 机器翻译需要更多的上下文3. 图像翻译4. 基于图像增强的文本翻译4.1 基于特征融合的方法4.2 基于联合模型的方法5. 参考文献1. 背景基于上下文的翻译是机器翻译的一个重要分支。传统方法中,机器翻译通常被 定义为对一个句子进行翻译的任务。但是,现实中每句话往往不是独立出现的。比 如,人们会使用语音进行表达,或者通过图片来传递信息,这些语音和图片内容都 可以伴随着文字一起出现在翻译场景中。此外,句子往往存在于段落或者篇章之中, 如果要理

2021-06-03 15:09:07 4250

原创 学术论文写作 | (9) 英文论文写作常用工具

https://quillbot.com/ (一句句子不会写,可以先写个草稿,用此改写)https://www.dictionary.com/ 这个查单词意思https://www.thesaurus.com/ 这个查同义词替换https://linggle.com/ 这个查用法搭配,神器短语不能直接找到就 Google,“blabla meaning/definition”,“what does blabla mean”复习语法 https://www.bilibili.com/video/a.

2021-03-31 14:55:19 1767

原创 Linux杂谈 | (12) Anaconda环境更名/克隆

Anaconda没有环境更名的命令,但是可以通过克隆旧环境产生一个相同的新环境,然后把旧环境删掉。进入旧环境conda activate old_env_name克隆旧环境conda activate -n new_env_name --clone old_env_name查看克隆结果conda info --envs退出并删除旧环境conda deactivateconda remove -n old_env_name --all...

2021-03-31 14:52:15 494

翻译 强化学习 | (5) RUDDER:A practical tutorial

项目地址A step-by-step guide to applying RUDDER在本教程中,我将向您展示如何逐步应用RUDDER以及如何使用PyTorch实现奖励重新分配模型。 您可以将其用作快速指南,以将RUDDER应用于您的RL设置,并预先评估RUDDER是否可以事先改善您的任务。 该代码可以在合理的时间内在通用CPU上运行。RUDDER Blog, RUDDER Paper, Rudder Repo文章目录A step-by-step guide to applying RUDDEROv

2021-03-15 16:01:13 659

翻译 强化学习 | (4) RUDDER - Reinforcement Learning with Delayed Rewards

原文地址论文《RUDDER: Return Decomposition for Delayed Rewards》最近,通过复杂的策略游戏,需要model-free强化学习的具有延迟奖励的任务引起了很多关注。例如,DeepMind目前专注于延迟奖励游戏《夺旗》和《星际争霸》,而微软则在搭建Marlo环境,Open AI宣布了Dota 2的成就。使用无模型的强化学习来掌握这些具有延迟奖励的游戏带来了巨大的挑战,并且几乎是无法克服的障碍,请参见出色的理解OpenAI Five博客。延迟的奖励很常见,因为它们通

2021-03-13 16:18:11 2150 1

原创 多语言机器翻译 | (6) Transformer

文章目录1. 背景2. 流程和细节3. 总结1. 背景利用rnn,lstm学习上下文之间的关系,无法实现并行化,给模型的训练和推理带来了困难,因此提出了一种完全基于attention来对语言建模的模型,叫做transformer。transformer摆脱了nlp任务对于rnn,lstm的依赖,使用了self-attention的方式对上下文进行建模,提高了训练和推理的速度,transformer也是后续更强大的nlp预训练模型的基础。2. 流程和细节<1> Inputs是经过padd

2021-03-08 21:05:20 802

原创 多语言机器翻译 | (4) 注意力机制

在(编码器—解码器(seq2seq))里,解码器在各个时间步依赖相同的上下文向量来获取输入序列信息。当编码器为循环神经网络时,上下文向量来⾃它最终时间步的隐藏状态。现在,让我们再次思考那一节提到的翻译例子:输⼊为英语序列“They”“are”“watching”“.”,输出为法语序“Ils”“regardent”“.”。不难想到,解码器在⽣成输出序列中的每一个词时可能只需利用输入序列某一部分的信息。例如,在输出序列的时间步1,解码器可以主要依赖“They”“are”的信息来生成“Ils”,在时间步2则主要

2021-03-08 20:06:54 762

原创 多语言机器翻译 | (3) Beam Search

本篇博客介绍如何使用Encoder-Decoder来预测不定长序列。假设解码器的输出是一段⽂本序列。设输出⽂本词典(包含特殊符号"")的⼤小为Y , 输出序列的最大长度为T′T'T′。 所有可能的输出序列一共有O(∣Y∣T′)O(|Y|^{T'})O(∣Y∣T′)种。这些输出序列中所有特殊符号" "后⾯的⼦序列将被舍弃。文章目录1. 贪婪搜索2. 穷举搜索3. 束搜索4. 总结1. 贪婪搜索让我们先来看一个简单的解决⽅案:贪婪搜索(greedy search)。对于输出序列任一时间步t’,我们从|Y

2021-03-08 17:28:47 621

原创 多语言机器翻译 | (2) 编解码器结构

在⾃然语⾔处理的很多应用中,输⼊和输出都可以是不定长序列。以机器翻译为例,输⼊可以是⼀段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如:英语输入:“They”、“are”、“watching”、“.”法语输出:“Ils”、“regardent”、“.”输入和输出都是不定长序列时,我们可以使用编码器—解码器(encoder-decoder)或者 seq2seq模型 。这两个模型本质上都用到了两个循环神经网络(或transformer),分别叫做编码器和解码器。编码器用来分析输入序列,解码

2021-03-08 16:58:54 1050

转载 多语言机器翻译 | (1)多语言翻译模型简介

低资源机器翻译面临的主要挑战是缺乏大规模高质量的双语数据。这个问题往往伴随着多语言的翻译任务[1]。也就是,要同时开发多个不同语言之间的机器翻译系统,其中少部分语言是富资源语言,而其它语言是低资源语言。针对低资源语言双语数据稀少或者缺失的情况,一种常见的思路是利用富资源语言的数据或者系统帮助低资源机器翻译系统。这也构成了多语言翻译的思想,并延伸出大量的研究工作,其中有三个典型研究方向:基于枢轴语言的方法[2]、基于知识蒸馏的方法[3]、基于迁移学习的方法[4,5],下面进行介绍。1. 基于枢轴语言的方法

2021-03-07 21:35:35 4216

转载 强化学习 | (3) 奖励设计相关论文介绍

原文地址1. 介绍在强化学习中,智能体的目标被形式化表征为一种特殊信号,称为奖励/reward,它通过环境传递给智能体。在每个时刻,reward都是一个单一标量数值。非正式地说,智能体的目标是最大化其收到的总奖励。这意味着需要最大化的不是当前奖励,而是长期的累积奖励。我们可以将这种非正式想法清楚地表述为奖励假设:我们所有的“目标”或“目的”都可以归结为:最大化智能体接收到的标量信号(称之为奖励)累积和的概率期望值。使用奖励信号来形式化目标是强化学习最显著的特征之一。智能体总是学习如何最大化奖励。如

2021-02-22 10:00:39 3127

翻译 强化学习 | (1) The Review of Reinforcement Learning

本文翻译自 A (Long) Peek into Reinforcement Learning在本文中,我们将简要介绍强化学习(RL)这个领域,从基本概念到经典算法。近年来,人工智能(AI)领域出现了两个令人振奋的消息。 AlphaGo在围棋游戏中击败了最好的职业人类玩家。 之后扩展的算法AlphaGo Zero在没有人类知识监督学习的情况下,以100-0击败了AlphaGo。 在DOTA2 1v1竞赛中,顶级专业游戏玩家输给了OpenAI开发的机器人。 知道了这些之后,很难不对这些算法背后的魔力-强化

2021-02-04 21:37:04 577

转载 推荐系统 | (4) 可解释推荐系统---知其然,知其所以然

原文地址作者:王希廷 谢幸利用强化学习实现封装式可解释推荐系统单纯的推荐结果和推荐结果+理由的组合,哪个更让你信服?长篇累牍的推荐语和言简意赅的关键词,你更愿意看哪个?这是人们每天都会面对的场景,也是可解释推荐系统研究需要不断优化的问题。在上一篇文章《可解释推荐系统:身怀绝技,一招击中用户心理》中,微软亚洲研究院的研究员王希廷和谢幸介绍了可解释推荐系统的分类、推荐解释生成方法以及面临的机遇和挑战。本文中,研究员从解释的目标出发,结合现有的方法流程,介绍了他们改进过的新的结构,最后也反思了研究有待改进

2020-10-13 10:21:25 1868

转载 推荐系统 | (3) 可解释推荐系统---身怀绝技,一招击中用户心理

原文地址原文作者:王希廷、谢幸

2020-10-09 14:42:55 979 1

转载 推荐系统 | (2) 个性化推荐系统研究热点

原文地址本文作者:谢幸、练建勋、刘政、王希廷、吴方照、王鸿伟、陈仲夏推荐系统作为一种过滤系统,不仅能够帮助用户在海量的信息中快速寻找到自己需要的内容,也能帮助商家把自己的商品更精准地推荐给用户,增强用户与商家之间的交互性。搭建更加有效的个性化推荐系统,对商家和用户都具有更深远的意义。在本文中,微软亚洲研究院社会计算组的研究员们从深度学习、知识图谱、强化学习、用户画像、可解释性推荐等五个方面,展望了未来推荐系统发展的方向。“猜你喜欢”、“购买过此商品的用户还购买过……”对于离不开社交平台、电商、新闻阅读

2020-10-07 17:04:50 3866

原创 推荐系统 | (1) 任务分类

推荐系统(recommender system)指的是从用户过去的购买习惯/记录中学习用户的兴趣,从而给用户推荐合适的商品,是一个单轮交互的过程。任务型对话系统(task-oriented dialogue system)通过多轮对话,在对话过程中,捕捉用户的兴趣,完成一个特定的任务,是一个多轮交互的过程。对话推荐系统(conversational recommender system, CRS)由于推荐系统更多的是去关注用户过去的偏好,但是用户当前的兴趣可能已经改变。而对话系统更多的..

2020-10-03 17:26:49 1739

转载 机器阅读理解 | (5) 用MRC框架解决各类NLP任务

原文地址详解如何充分发挥先验信息优势,用MRC框架解决各类NLP任务本文将讨论如何将命名体识别、指代消解、关系抽取、文本分类等 NLP 任务转化为 MRC(机器阅读理解)任务,利用 MRC 框架的 query 所蕴含先验信息的优势,不但由此获得效果上的显著提高,还将赋予模型 Domain Adaptation、Zero-shot Learning 等多方面的能力。让我们先梳理一下 MRC 的基础知识。文章目录1. 什么是MRC?2. MRC框架尝试解决的NLP任务MRC框架解决NER任务2.2 M

2020-09-29 11:22:41 3462 1

转载 Shell基础 | (12) 输入/输出重定向

原文地址大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回​​到您的终端。一个命令通常从一个叫标准输入的地方读取输入,默认情况下,这恰好是你的终端。同样,一个命令通常将其输出写入到标准输出,默认情况下,这也是你的终端.重定向命令列表如下:文章目录1. 输出重定向2. 输入重定向3. Here Document4. /dev/null 文件1. 输出重定向重定向一般通过在命令间插入特定的符号来实现。特别的,这些符号的语法如下所示:command1 > file1上面这个

2020-09-24 14:53:54 448

转载 Shell基础 | (11) 文件包含

原文地址Shell文件包含和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。Shell 文件包含的语法格式如下:. filename # 注意点号(.)和文件名中间有一空格或source filename实例创建两个 shell 脚本文件。test1.sh 代码如下:#!/bin/bash# author:菜鸟教程# url:www.runoob.comurl="http://www.runoob.com"test

2020-09-24 14:01:23 139

转载 Shell基础 | (10) 函数

原文地址linux shell 可以用户定义函数,然后在shell脚本中可以随便调用。shell中函数的定义格式如下:[ function ] funname [()]{ action; [return int;]}说明:可以带function fun() 定义,也可以直接fun() 定义,不带任何参数。参数返回,可以显示加:return 返回,如果不加,将以最后一条命令运行结果,作为返回值。 return后跟数值n(0-255下面的例子定义了一个函数并进行调用:#

2020-09-23 16:55:23 341

转载 Shell基础 | (9) 流程控制

原文地址文章目录1. if else2. for 循环3. while 语句4. until循环5. case6. 跳出循环6. case ... esac1. if elseifif 语句语法格式:if conditionthen command1 command2 ... commandN fi写成一行(适用于终端命令提示符):if [ $(ps -ef | grep -c "ssh") -gt 1 ]; then echo "true"; fi

2020-09-22 15:06:31 189

转载 对话系统 | (10) 《Deal or No Deal? End-to-End Learning for Negotiation Dialogues》

原文地址EMNLP2017,论文地址。EMNLP 2017 这篇论文给出的对话场景叫谈判协商(Negotiation),并且他们认为谈判协商既包含合作,又包含对抗竞争。用他们的实验来理解这样一个场景,首先,这个谈判协商旨在两个人之间进行,A 和 B。总共有一定数量的几种物品,A 和 B 需要通过谈判,去分享这些物品。重点在于,同一种物品,对于 A 和 B 的价值是不一样的,且他们无法知晓这个物品对于对方的价值如何。而 A 和 B 都希望尽可能地通过谈判使得自己最后得到的物品总价值更高。分析这样一个场

2020-09-22 10:07:17 382

转载 Shell基础 | (8) test命令

原文地址Shell中的 test 命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试。文章目录1. 数值测试2. 字符串测试3. 文件测试1. 数值测试num1=100num2=100if test $[num1] -eq $[num2]then echo '两个数相等!'else echo '两个数不相等!'fi输出结果:两个数相等!代码中的 [] 执行基本的算数运算,如:#!/bin/basha=5b=6result=$[a+

2020-09-21 11:25:07 188

转载 Shell基础 | (7) printf命令

原文地址上一章节我们学习了 Shell 的 echo 命令,本章节我们来学习 Shell 的另一个输出命令 printf。printf 命令模仿 C 程序库(library)里的 printf() 程序。printf 由 POSIX 标准所定义,因此使用 printf 的脚本比使用 echo 移植性好。printf 使用引用文本或空格分隔的参数,外面可以在 printf 中使用格式化字符串,还可以制定字符串的宽度、左右对齐方式等。默认 printf 不会像 echo 自动添加换行符,我们可以手动添加

2020-09-21 11:11:41 236

转载 Shell基础 | (6) echo命令

原文地址Shell 的 echo 指令与 PHP 的 echo 指令类似,都是用于字符串的输出。命令格式:echo string您可以使用echo实现更复杂的输出格式控制。显示普通字符串:echo "It is a test"这里的双引号完全可以省略,以下命令与上面实例效果一致:echo It is a test显示转义字符echo "\"It is a test\""结果将是:"It is a test"同样,双引号也可以省略显示变量read 命令从标准输入中读取一行

2020-09-20 11:13:18 281

转载 Shell基础 | (5) Shell基本运算符

原文地址Shell 和其他编程语言一样,支持多种运算符,包括:算数运算符关系运算符布尔运算符字符串运算符文件测试运算符原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。expr 是一款表达式计算工具,使用它能完成表达式的求值操作。例如,两个数相加(注意使用的是反引号 ` 而不是单引号 '):#!/bin/bashval=`expr 2 + 2`echo "两数之和为 : $val"执行脚本,输出结果如下所示:两数之

2020-09-20 11:02:57 230

转载 Shell基础 | (4) Shell数组

原文地址数组中可以存放多个值。Bash Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小(与 PHP 类似)。与大部分编程语言类似,数组元素的下标由0开始。Shell 数组用括号来表示,元素用"空格"符号分割开,语法格式如下:array_name=(value1 value2 ... valuen)实例#!/bin/bash# author:菜鸟教程# url:www.runoob.commy_array=(A B "C" D)我们也可以使用下标来定义数组:

2020-09-18 12:42:29 395

转载 Shell基础 | (3) 传递参数

原文地址我们可以在执行 Shell 脚本时,向脚本传递参数,脚本内获取参数的格式为:$n。n 代表一个数字,1 为执行脚本的第一个参数,2 为执行脚本的第二个参数,以此类推……实例以下实例我们向脚本传递三个参数,并分别输出,其中 $0 为执行的文件名(包含文件路径):#!/bin/bash# author:菜鸟教程# url:www.runoob.comecho "Shell 传递参数实例!";echo "执行的文件名:$0";echo "第一个参数为:$1";echo "第二个参数为

2020-09-18 12:31:47 287

转载 Shell基础 | (2) Shell变量

原文地址文章目录1. Shell变量2. Shell 字符串3. Shell数组4. Shell注释1. Shell变量定义变量定义变量时,变量名不加美元符号$,your_name="runoob.com"注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则:命名只能使用英文字母,数字和下划线,首个字符不能以数字开头。中间不能有空格,可以使用下划线(_)。不能使用标点符号。不能使用bash里的关键字(可用help命令查看保留关键字

2020-09-17 17:31:19 216

转载 Shell基础 | (1) Shell简介

原文地址文章目录1. 简介2. Shell环境3. Shell脚本1. 简介Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。2. Shell环境Shell 编程跟 JavaScript

2020-09-17 16:49:05 295

转载 强化学习基础 | (19) AlphaGo Zero强化学习原理

原文地址在基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。1. AlphaGo Zero模型基础AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高。主要使用了两个模型,第一个就是我们上一节介绍MCTS树结构,另一个是

2020-09-10 10:35:51 866

转载 强化学习基础 | (18) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

原文地址在基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。本篇主要参考了UCL强化学习课程的第八讲,第九讲部分。1. 基于模拟的搜索概述什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索。模拟我们在上一篇也讨论过,就是基于强化学习模型进行采样,得到样本数据。但是这个数据

2020-09-09 11:40:26 1039

转载 强化学习基础 | (17) 基于模型的强化学习与Dyna算法框架

原文地址在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。1. 基于模型的强化学习简介基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态s下采取动作

2020-09-09 10:36:16 866

转载 强化学习基础 | (16) 深度确定性策略梯度(DDPG)

原文地址在A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)。本篇主要参考了DDPG的论文和ICML 2016的deep RL tutorial。1. 从随机策略到确定性策略从DDPG这个名字看,它是由D(Deep)+D(Determ

2020-09-08 16:10:42 1517

转载 强化学习基础 | (15) A3C

原文地址在Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。本文主要参考了A3C的论文,以及ICML 2016的deep RL tutorial。1. A3C的引入上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参,最后的CartPo

2020-09-08 11:53:16 474

转载 强化学习基础 | (14) Actor - Critic

在策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。在本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。本文主要参考了Sutton的强化学习书第13章和UCL强化学习讲义的第7讲。1. Actor-Critic算法简介Actor-Crit

2020-09-07 15:25:54 1069

转载 Lee Hung-yi强化学习 | (8) Imitation Learning

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件地址上一篇笔记讲了reward很稀疏的情况,但是在实际中,可能问题还会更进一步:很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料/数据,让agent跟着做。本文会讲两个Imitation Learning的方法:1)Behavior Cloning2)Inverse Reinforcement Learning (IRL)1.

2020-09-03 15:11:08 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除