自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Key-Value Memory Network

首先,基本的Memorry Network中是使用sentence(passage)来构造memory,然后计算和query的匹配程度,再根据匹配程度计算输出,用于下游任务。而Key-Value Memory Network则是使用(K,V)对来构造memory,这种构造方式是为了解决文档阅读QA任务里面对外部知识(或者称先验知识)的应用。Key-Value Memory的散列,寻址,读取等步骤...

2020-04-13 10:32:41 217

原创 Deep Mask Memory Network with Semantic Dependency and Context Moment for Aspect Level Sentiment Clas

这篇博文是Deep Memory Network在Aspect Based Sentiment方向上的应用的一部分,如果你已经熟知深度记忆网络并且看过其在ABSA的应用,只想看这篇论文,可以跳过直接阅读本文。如果没有,建议阅读完整版。Deep Mask Memory Network with Semantic Dependency and Context Moment for Aspect ...

2020-03-11 17:32:51 196

原创 Deep Memory Network在Aspect Based Sentiment方向上的应用
原力计划

前面的博文Deep Memory Network 深度记忆网络已经非常详细地介绍了该种网络架构,下面我们来研究一下其在基于方面的情感分类的应用。Aspect Based Sentiment是一种细粒度的情感分析问题,一个句子中可能有多个aspect,并且这些aspect的极性可能是不一样的。该任务来自SemEval-14 task 4,要求正确预测所有aspect的极性。基于方面的情感分析,以下...

2020-03-11 17:25:26 219

原创 Deep Memory Network 深度记忆网络

RNN解决长期依赖的能力随着文本长度的增加越来越差,attention机制是解决这种问题的一种思路,今天我们再来看另外一种思路,深度记忆网络。Deep Memory Network在QA和Aspect based Sentiment等NLP领域都有过成功的实践,但其提出者本身是以通用模型的形式提出的。Introduce of Memory NetworkMemory Network是一种...

2020-03-10 18:42:59 424

原创 Self Attention 自注意力机制

self attention是提出Transformer的论文《Attention is all you need》中提出的一种新的注意力机制,这篇博文仅聚焦于self attention,不谈transformer的其他机制。Self attention直观上与传统Seq2Seq attention机制的区别在于,它的query和massage两个序列是相等的。广义注意力机制在谈论sel...

2020-03-09 18:20:02 1235

原创 Attention基本公式及其变种

本篇博文介绍的Attention,全部是Seq2Sqeq的attention机制的变种,本质上也还是Seq2Seq的attention,区别于Transformer的self attention,下一篇博文会介绍self attention。Attention Mechanism 机制基本公式attention机制本质上是一种加权值,对文本进行加权求和后得到整个文本的中间语义变换函数,关...

2020-03-09 15:48:55 327

原创 近端策略优化算法(PPO)

策略梯度算法法 (PG)策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为:E^t[∇θlogπθ(at∣st)A^t]\hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t]E^t​[∇θ​logπθ​(at​∣st​)A^t​]其中πθ\pi_\thetaπθ​为...

2020-02-05 15:53:38 836 1

原创 Policy Gradient 算法

常见的policy gradient算法,写出来挺简单的,但是有一个复杂的推导过程,这里就略去了。

2019-11-28 22:13:15 262

原创 Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索

Monte Carlo Tree Search为什么要学习MCTS一部分原因是过去12年AI最大的成就莫过于Alpha Go,一个超越任何人类的围棋玩家引入基于模型的RL思想和规划(planning)的好处IntroudctionModel-Based Reinforcement Learning前面的博文:从经验中直接学习价值函数或者策略这篇博文:从经验中直接学习模型(Tra...

2019-11-23 21:55:39 495

原创 Imitation Learning in Large State Spaces 大规模状态空间下的模仿学习

We want RL Algorithm that PerformOptimization(优化)Delayed consequences(延迟结果)Exploration(探索)Generation(泛化)And do it all statistically and computationally efficiently(统计性地,计算高效性地执行以上过程)Generaliza...

2019-11-19 21:32:57 207

原创 Deep Q learning: DQN及其改进

Deep Q LearningGeneralizationDeep Reinforcement Learning使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化loss函数Deep Q-Networks(DQNs)使用带权重集w\textbf{w}w的Q-network来表示状态-动作价值函数Q^(s,a;w)≈Q(s,a)\hat{Q}(s,...

2019-11-16 17:19:47 596

原创 CNNs and Deep Q Learning

前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇博文前半部分介绍DNN、CNN熟悉这些的读者可以跳过,直接看后半部分的Deep Q Learning Part。Generalization为什么要使用网络来做近似。希望能使用强化学习来处理自动驾驶汽车,Atari,消费者市场,医疗,教育等等这些领域一...

2019-11-09 18:32:15 243

原创 Planning and Learning

这算是一篇综述性文章,讲的不深,但是了解做planning都有哪些方法。这篇文章里全部使用了Q的说法,因为实现上可能是网络DQN,也可以是经典的Table。Models and PlanningModels指的是Environment Models,可以分为两大类:当前状态和采取的动作作为输入,输出下一个所有可能状态和奖励的分布当前状态和采取的动作作为输入,输出下一个状态和奖励P...

2019-11-04 15:03:59 137

原创 Value function approximation

前面的一篇博客:Model-free control:如何从经验中学习一个好的策略到目前为止,我们都假设了可以将价值函数或state-action价值(即Q函数)表示成向量或者矩阵表格表示法很多现实世界的问题会有巨大的状态空间 和/或 动作空间表格表示法是不够用(insufficient)的回顾:强化学习包括Optimization(优化)Delayed consequence...

2019-10-28 20:59:06 299

原创 从SARSA算法到Q-learning with ϵ-greedy Exploration算法

SARSA AlgorithmSARSA代表state,action,reward,next state,action taken in next state,算法在每次采样到该五元组时更新,所以得名SARSA。1: Set1:\ Set1: Set Initial ϵ\epsilonϵ-greedy policy π,t=0\pi,t=0π,t=0, initial ...

2019-10-26 22:22:31 940

原创 ϵ-greedy Policies

ϵ\epsilonϵ-greedy Policies非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上这个策略在论文里一般一句话就可以概括:ϵ\epsilonϵ-greedy policy that selects a random action with probability ϵ\epsilonϵ(不准确) or...

2019-10-25 22:36:36 1051

原创 Model-Free Control

Control(making decisions) without a model of how the world works.Evaluation to Control前面的博文介绍了如何衡量一个特定的策略(即对它进行评估)没有给予访问决策过程模型参数的权限取而代之的是,能够从数据/经验中估计这篇博文:如何学习一个好的策略Recall: Reinforcement Lear...

2019-10-23 22:16:18 248

原创 Importance Sampling 重要性采样

Importance Sampling(重要性采样),也是常用估计函数价值在某个概率分布下的期望的一个方法。这篇博文先简要介绍IS,再将其在策略评估中的应用。

2019-10-22 21:57:15 342

原创 Monte Carlo Off Policy Evaluation

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估 介绍的是On-Policy的策略评估。简而言之,On-Policy就是说做评估的时候就是在目标策略本身上做的评估,而Off-Policy指的是在别的策略上对目标策略做评估。MC Off-Policy Evaluation在某些领域(例如图示)尝试采取动作观察结果代价很大或者风险很高...

2019-10-21 22:07:51 120

原创 IOB Inside-outside-beginning (tagging)

IOB Inside-outside-beginning (tagging)IOB是一种标记技术,IOB foramt是一种在计算机语言学断句中常用的符号(tokens)的形式。B前缀指代一个语句块的开始;I前缀指代在该语句块(chunk)当中;O前缀指代不在该语句块中。B标签只在一个标签要紧跟在另一个同类型标签但没有两个标签之间没有O标志的时候使用。O标签显示该符号不属于任何语句块。参考...

2019-10-21 11:28:21 135

原创 KBQA: 知识图谱上的问答系统概述

随着诸如DBPedia和FreeBase等大规模知识图谱的快速发展。知识图谱知识问答在过去几年引起了广泛注意。KBQA: 知识图谱上的问答系统给定自然语言(NL)形式的问题,KBQA的目标是在潜在的知识图谱上自动寻求答案。这提供了一个更加自然更加直观的方式去访问大规模的潜在的知识资源。KBQA的主要挑战在于词汇间隔(lexical gap)。例如同样的问题可以通过多种自然语言形式进行表达...

2019-10-18 10:42:01 569

原创 知识图谱上简单问题的知识问答

简单问题的界定是能通过查找一个事实就可以解答。本文关注baseline方法,即仅使用一般LSTM/GRU,不使用复杂的深度学习方法。所以这是一篇入门博客。知识图谱上的简单问题问答链接(entity linking)**、关系预测(relation prediction)、证据整合(evidence integration) 四个阶段。有一个相关数据集:SIMPLEQUESTIONS。...

2019-10-17 13:45:55 213

原创 Temporal Difference - 时序差分学习

这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节,因为TD本身也是一种无模型策略评估方法。原博文有对无模型策略评估方法的详细概述。Temporal Difference(TD)时序差分“if one had to identify one idea as central and novel to reinforcement lea...

2019-10-16 00:07:44 227

原创 Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估

这篇博文是另一篇博文Model-Free Policy Evaluation 无模型策略评估的一个小节,因为蒙特·卡洛尔策略评估策略评估本社就是一种无模型策略评估方法,原博文有对无模型策略评估方法的详细概述。基础相关概念如果我们不知道动态模型P/或奖励模型R呢?新内容:在没有模型的条件下进行策略价值评估给定数据/或与环境交互的能力足够计算策略π\piπ的合理估计Mont...

2019-10-14 14:46:19 307

原创 Model-Free Policy Evaluation 无模型策略评估

Mode-Free Policy Evaluation: Policy Evaluation Without Knowing How the World WorksPolicy evaluation without known dynamics & reward modelsThis Lecture: Policy Evaluation在没有权限访问真实MDP模型的条件下估计一...

2019-10-12 16:57:59 344

原创 Compute the Optimal Policy & the Optimal Value 计算最佳策略和计算最佳价值

MDP Control在这节内容里我们不讨论如何学习策略,我们仅仅探讨计算最佳策略。计算最佳策略π∗(s)=argmaxπVπ(s)\pi^*(s)=\mathop{argmax}\limits_{\pi} V^\pi(s)π∗(s)=πargmax​Vπ(s)存在一个独一无二的最优价值函数在一个有限horizon内MDP的最优策略是确定的最后一条是一个非常好的原因,能够解答为...

2019-10-11 17:24:03 204

原创 注意力机制(Attention Mechanism)

注意力机制起源于应用于NLP的RNN模型,但也在其他的领域有所应用。对注意力机制的理解也是算法面试经常提及的一道基础面试题,在这篇博文里我们汇总吴恩达深度学习视频序列模型3.7和3.8以及台大李宏毅教授对Attenion Mechanism以及相关参考文献对注意力机制给出详细的介绍的解释。注意力机制(Attention Mechanism)注意力机制是深度学习中一个非常重要的思想,在NLP...

2019-10-10 10:54:17 1096

原创 Evaluation and Control -评估和控制

评估估计/预测一个给定策略的奖励期望。在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。控制最优化:找到最佳的策略。...

2019-09-28 20:16:10 166

原创 从Markov Process到Markov Decision Process

Recall: Markov Propertyinformation state: sufficient statistic of historyState sts_tst​ is Markov if and only if:p(st+1∣st,at)=p(st+1∣ht,at)p(s_{t+1}|s_t,a_t)=p(s_{t+1}|h_t,a_t)p(st+1​∣st​,at​)=p(...

2019-09-28 20:15:26 242

原创 剑指Offer系列编程题详解全集

剑指Offer系列是一本国内互联网公司计算机、软件、测试、运维等方向招聘笔试及面试经常会考的编程题合集,一共67道题,其中部分题目与LeetCode上的题目相一致,题目的难易度比较适中,有同名图书出版。该博客Github链接指向的是牛客网的剑指Offer系列编程题解法的解法repository。牛客网的剑指Offer和原书相比,只是题目顺序不一样,其余都一样。博主放在Github的代码也全都加了...

2019-09-28 20:10:41 1358

原创 L1正则和L2正则的区别详解

正则化本身是一种参数范数惩罚,即权重衰减。L2参数正则化L2参数正则化策略通过向目标函数添加一个正则项Ω(θ=12∥w∥22)\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})Ω(θ=21​∥w∥22​),来使权重更加接近原点。其他学术圈称L2为岭回归或者Tikhonov正则。下图中w~\tilde{w}w~即为增加L2正则项之后所求的参数集,...

2019-09-26 22:20:31 2495 1

原创 协方差详解

今天面算法,面试官问协方差是什么,因为平时基本可能用不到,所以一脸懵逼,今天来温习一下什么是协方差。期望(Expection)函数f(x)关于某分布P(x)的期望或者期望值是指,当x是由P产生时,f作用于x时,f(x)的平均值。对于离散型随机变量,通过求和得到:Ex∼P[f(x)]=∑xP(x)f(x)\mathbb{E}_{x\sim P}[f(x)]=\sum_xP(x)f(x)Ex...

2019-09-26 21:28:06 207

原创 牛顿法和梯度下降法的比较

牛顿法和梯度下降法大家都很熟悉了,所以这里就不细讲了,直接总结两者的区别,这也是面试算法可能会问到的问题。NameNote梯度下降一阶优化算法牛顿法二阶优化算法牛顿法:通过求解目标函数一阶导数为0时的参数集,间接地求目标函数达到最小值时的参数。当fff是一个正定二次函数时,牛顿法只需一次迭代就能直接跳到函数最小点,如果fff不是一个二次真正但也能局部...

2019-09-25 21:31:18 236

转载 C++ const各种用法总结

转载自: https://www.toutiao.com/i6644404128439075332/,有删改。附参考:https://www.jb51.net/article/118141.htm一 一般常量声明或定义的格式如下:const <类型说明符> <变量名> = <常量或常量表达式>; [1]<类型说明符> const <...

2019-09-17 20:02:05 85 1

原创 Exploration and Exploitation - 探索和利用

Exploration and Exploitation(探索和利用)是强化学习需要去平衡的一个点,即我应该去探索新的选项还是充分利用我已经有的选项以取得最大收益(博主注),它是强化学习一个非常重要的点,而且是非常依赖领域的,比如针对顾客、学生、患者等,不同的领域探索和利用的侧重会有所不同。Exploration and ExploitationAgent只能体会到它尝试的那些动作,这明显...

2019-08-30 11:40:33 547

原创 RL Algorithm Components - 强化学习算法组件

RL Algorithm Components通常包括一个或者更多:Model(模型): world对agent的动作如何改变的一种表示(representation)Policy(策略): 映射agent的state到动作的函数Value function(价值函数): 遵循一个policy处于一个状态/执行一个动作之后的未来奖励Model模型是Agent的world如何对其动作...

2019-08-30 10:17:05 243

原创 Sequential Decision Making under uncertain - 不确定性条件下的序列决策制定

Sequential Decision Making序列决策制定可以被归纳为为下面的交互式闭环过程:目标:选择能够最大化未来全部收益期望的动作(actions)。这可能不一直都是好的标准,但这是大多数强化学习所关注的。但现在也有一些人对distribution honorable强化学习和其他方面有兴趣可能需要平衡即时收益和长期回报可能需要策略化的行为以取得高回报(你可能需要牺牲初...

2019-08-29 21:27:27 577

原创 强化学习简介

强化学习How can an intelligent agent learn to make good sequences of decisions?.这一句英文可以概括所有强化学习的关注点:强化学习旨在学习去做出一系列好的决策。因此我们的关注点在一系列决策(sequence of decisions, 英文的sequence含有连续的意思)上。相对于机器学习,强化学习的主体是智能体,可能...

2019-08-29 16:28:05 439

原创 Policy Gradient - 策略梯度

策略梯度(Policy Gradient)在一个包含Actor、Env、Reward Function的强化学习的情景中,Env和Reward Function是你所不能控制的。Actor的策略π\piπ是一个参数为θ\thetaθ的网络输入:以向量或者矩阵表示的机器观察输出:关联到输出层某个神经元的一个动作策略执行的过程可以表示为一个迹(Trajectory)τ=s1,a1,s2...

2019-08-26 16:52:57 210

原创 深入了解马尔科夫决策过程(Markov Decision Process)

马尔科夫决策过程(Markov Decision Process, MDP)是时序决策(Sequential Decision Making, SDM)事实上的标准方法。时序决策里的许多工作,都可以看成是马尔科夫决策过程的实例。人工智能里的规划(planning)概念(指从起始状态到目标状态的一系列动作)已经扩展到策略的概念:基于决策理论对于待优化目标函数最优值的计算,策略将所有的时序状态映射到...

2019-07-17 17:00:04 4928

提示
确定要删除当前文章?
取消 删除