gorilla1211-CSDN博客

原创零基础入门NLP - 新闻文本分类 | 天池 | Task6 基于深度学习的文本分类3

Transformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网.

2020-08-05 16:23:24 276 1

原创论文笔记 Diversity-Driven Exploration Strategy for Deep Reinforcement Learning

摘要本文出自NerulIPS 2018会议。高效探索是强化学习中的一个挑战性研究问题，尤其是在环境中包含大的状态空间，欺骗性或稀疏的奖励时。为了解决这个问题，本文提出了一个关于探索的多样性驱动的方法，可以被轻松地与在线或离线强化学习算法相结合。该方法包括添加一个损失函数的距离测量正则化来防止策略陷入局部最优值，提出一个自适应缩放策略来巩固性能。介绍本文提出了一个多样性驱动的探索策略，鼓励一个DRL agent去尝试与先验策略不同的策略。提出了一个距离测量来改进损失函数去解决大状态空间、.

2020-08-03 09:36:27 618

原创论文笔记 Benchmarking Model-Based Reinforcement Learning

摘要Model-based强化学习（MBRL）比Model-free强化学习（MFRL）更加sample efficient。目前对于MBRL的研究没有标准，作者们可能会使用自己设计的环境、一些闭源且不能复现的结果。本文收集了大批MBRL算法，并在18个为MBRL特别设计的基准环境上按照统一的设置运行。本文还描述了三个未来MBRL研究的关键挑战：动力瓶颈、规划周期困境、提前终止困境、介绍尽管近期MBRL的研究取得喜人的进展，这些方法是如何相互比较的，以及如何与baseline比较是不明确的.

2020-08-01 21:23:10 1383

原创零基础入门NLP - 新闻文本分类 | 天池 | Task5 基于深度学习的文本分类2

Word2vecfrom gensim.models.word2vec import Word2Vecmodel = Word2Vec(sentences, workers=num_workers, size=num_features)TextCNN模型构建self.filter_sizes = [2, 3, 4] # n-gram windowself.out_channel = 100self.convs = nn.ModuleList([nn.Conv2d(1, se.

2020-07-31 19:32:17 162

原创论文笔记 Reinforcement Learning with Derivative-Free Exploration

摘要高效的探索是sample-efficient强化学习的关键。目前最普遍常用的方法（如-greedy）仍是低效率的，而无梯度优化（derivative-free optimization）发明了高效的方法来更好地全局搜索。本文介绍一种无梯度探索（DFE）作为一种早期强化学习的常用高效探索方法。DFE克服了基于纯无梯度优化的强化学习方法的优化低效和可扩展性差的缺点。本文实验通过在确定离线策略方法DDPG和随机离线策略方法ACER算法中使用用DFE来探索轨迹，并应用于高维离散动作环境Atari和连续控制环

2020-07-30 20:14:26 421

原创论文笔记 Exploration for Reinforcement Learning

摘要本文定义并强调了在强化学习背景下的安全探索（safe exploration）问题。安全的概念和将导致毁坏因而必须避免的状态与转移有关。本文介绍了用来确定一个状态安全度的安全函数，与一个可以将系统从严峻状态变回安全状态的备份策略（backup policy）。本文还展示了一个分级探索（level-based exploration）方案，它可以生成一个综合的观察基础（comprehensive base of observation），同时支持安全约束。本文在一个燃气轮机的简化仿真上评估提出的方法。

2020-07-30 10:37:18 351

原创零基础入门NLP - 新闻文本分类 | 天池 | Task4 基于深度学习的文本分类1

FasttextFastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。FastText是一个三层的神经网络，输入层、隐含层和输出层。import pandas as pdfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv('../input/train_set.csv', sep='\t',

2020-07-27 22:10:34 147

原创论文笔记 Learning Reward Machines for Partially Observable Reinforcement Learning

摘要Reward Machines 提供了一种对奖励函数进行结构化的、基于自动机的表示，让agent得以将一个RL问题分解成结构化的子问题，这样一来可以通过离线学习（off-policy）高效解决。本文展现了RM可以通过经验学习到（而不是由用户来具体说明），以及问题分解可以用来有效解决部分可观察的（partially observable）RL问题。作者将学习RM的任务作为一个离散的优化问题，其目标是找到一个可以将一个问题分解成一系列子问题的RM。这些子问题的最优无记忆（optimal memory

2020-07-27 00:13:18 406

原创论文笔记 Hierarchical Deep Q-Network from Imperfect Demonstration in Minecraft

摘要论文作者通过使用Hierarchical Deep Q-Network（HDQfD）在MineRL比赛中获得第一名。HDQfD工作在不完美的示范上，并且使用了专家轨迹（expert trajectories）的分层结构。论文介绍了从示范数据中提取出一个元动作（meta-actions）和子目标（subgoals）的有效序列的程序。论文展示了一个结构化的任务依赖的replay buffer和一个自适应优先级排序（adaptive prioritizing）技术。这让HDQfD得以逐渐从buffer中淘

2020-07-26 11:48:40 317

原创零基础入门NLP - 新闻文本分类 | 天池 | Task3 基于机器学习的文本分类

文本表示方法文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（word embedding）方法。具体将每个字/词编码一个索引，然后根据索引进行赋值。One-hotn维稀疏向量，向量中某一位为1，其余为0.例子：句子1：我爱北京天安门句子2：我喜欢上海首先对所有句子的字进行索引，即将每个字确定一个编号：{ '我': 1, '爱': 2, '北': 3, '京': 4, '天': 5, '安': 6, '门': 7, '喜': 8, '欢': 9, '上': 1

2020-07-25 10:39:34 151

原创论文笔记 Joint Inference of Reward Machines and Policies for Reinforcement Learning

摘要吸取高阶知识（high-level knowledge）是加快强化学习的一个有效途径。论文研究了一种强化学习问题，其中高阶知识是以reward machines的形式存在的。reward machine是Mealy状态机（Mealy machine）的一类，使用了非马尔科夫（non-Markovian，奖励不仅依赖于当前状态，也依赖于历史状态）的奖励函数（reward function）。论文关注于一个设定，其中这种知识是不能为学习agent所用的先验知识。论文提出了一种迭代算法，该算法对强化学

2020-07-24 22:40:50 416

原创零基础入门NLP - 新闻文本分类 | 天池 | Task2 数据读取与数据分析

数据读取训练集保存在train_set.csv中，使用pandas的read_csv函数进行数据读取。import pandas as pd# 读取train_set.csv数据# n_rows为读取行数def load_train_set(): return pd.read_csv('./train_set.csv', sep='\t', nrows=200000)train_df = load_train_set()数据分析概况DataFrame.header(

2020-07-22 22:45:50 263

原创论文笔记 Retrospective Analysis of the 2019MineRL Competition on Sample Efficient Reinforcement Learning

摘要论文作者在NeurIPS2019举办了在利用人类先验知识的sample-efficient强化学习上的MineRL挑战赛。强化学习中agent和环境的交互成本较高，若一个算法可以尽量少地与环境交互，即用尽量少的样本数量进行训练，则该算法是sample efficient的。MineRL挑战赛旨在发展使用协同人类示范（human demonstration）的强化学习来减少样本数量的算法。这些样本是指用以解决复杂的、分层的（hierarchical）、稀疏（sparse）的环境的样本。论文回顾top解

2020-07-22 16:08:12 255

原创零基础入门NLP - 新闻文本分类 | 天池 | Task1 赛题理解

赛题背景赛事名称：天池大赛 > 学习赛 > 零基础入门NLP - 新闻文本分类赛事链接：https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.3dd51f54T3P3Ho 赛题简介：赛题以自然语言处理为背景，要求选手根据新闻文本字符对新闻的类别进行分类。这是一个经典文本分类问题，旨在带领选手了解并实践NLP的预处理、模型构建和模型训练等。

2020-07-21 15:45:33 279

weixin_40247273的博客