人工智能插班生-CSDN博客

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (九) 对抗网络（RankGAN + GAN家族总结）

对抗网络（RankGAN + GAN总结）１.RankGAN这个模型不一样的地方在于,将原来的Discriminator从二分类模型变为一个排序模型,也就是一个Leaning to Rank的问题.所以模型的两个神经网络为:一个generator和一个ranker.其中G为生成的样本,H为抽样的真实的样本,U为抽样的真实的样本.(没错，这里是两个都是真实样本)基本思想就是分别计算G和U...

2018-12-28 11:24:22 1882

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (八) 对抗网络（Unsupervised Conditional Sequence Generation）

对抗网络（Unsupervised Conditional Sequence Generation）现实世界中，非监督数据占据绝大多数，GAN可以利用非监督数据进行结构化数据生成。1. 文本转换 Text Transfer我们经常使用GAN做图片生成，其实除了图片这样的结构化数据外，文本转换也是GAN可以做到的。我们可以使用Cycle GAN的技术进行文本的“情绪”转换由于文本是...

2018-12-28 10:54:22 659

原创第四部分对抗网络GAN (七) 对抗网络应用：NLP对话生成

对抗网络应用：NLP对话生成在自然语言处理NLP中，对抗网络也有它的应用空间。我们从NLP最经典的应用：Dialog Generation 对话生成开始。传统的对话生成使用的是Maxlikelyhood的思路，就是使对话生成的每一个词的概率的乘积最大。但是效果不是很好（词库量、训练量都太大）我们先看看用Reinforcement learning的方法1.Reinforcement l...

2018-12-27 09:51:22 2517

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (六) 对抗网络（EBGAN，Info GAN，Bi GAN，VAE-GAN， Seq2Seq GAN）

对抗网络 EBGAN1. Energy-based GAN（EBGAN）EBGAN 其实就是鉴别器Discriminator，提前用AutoEncoder训练过的GANEBGAN的优势：GAN的训练比较麻烦，而AutoEncoder相对简单，EBGAN可以减少训练时间EBGAN的 discriminator 只会给有限的空间的值大的估计...

2018-12-25 09:29:06 1242

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (五) 对抗网络 Wasserstein GAN

对抗网络 Wasserstein GAN1. 传统Traditional GAN的问题1. JS 距离衡量存在问题在大多数例子中PGP_GPG和PdataP_{data}Pdata 中间是不重叠的生成器的目的就是要让PGP_GPG接近PdataP_{data}Pdata，那么GAN中的JS divergence 无法有一个过渡的过程，在 PGP_GPG接近PdataP_{da...

2018-12-23 21:18:44 977

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (四) 对抗网络 Cycle GAN

对抗网络GAN (四) 对抗网络 Cycle GAN我们目前看到的GAN都是有正确结果做参照的GAN（Supervised），但是如果没有正确结果做参照（Unsupuervised）的。最典型的例子就是风格迁移了（和Style Transfer算法不通，我们这里考虑用GAN），我们要把普通的照片迁移成梵高的画作，以前是没有这样的例子的，无从参考。我们还可以把进行声音转换：男人的声音转换成女...

2018-12-20 07:03:30 593

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (三) 对抗网络 Conditional GAN （CGAN）

对抗网络 Conditional GAN （CGAN）首先，我们先举一个例子，文本转换成图片:Text to Image.有过机器学习经验的同学肯定会想到，用监督学习就可以做到：不断地用监督的数据进行训练。但是，真实世界中，非监督数据远远大于带标记的监督数据。那我们考虑，如何利用GAN，来生成图片呢。Scott Reed, et al 在2016年ICML 提出Conditional...

2018-12-19 09:25:25 1087

原创机器学习与深度学习系列连载：第四部分对抗网络GAN（二) 对抗网络 GAN背后的理论

对抗网络 GAN背后的理论对抗网络GAN是由生成器Generator最终生成图片、文本等结构化数据。生成器能生成结构化数据的原理是什么呢？简而言之：就是让生成器Generator找到目标图片、文本的信息的概率密度函数。通过概率密度函数Pdata(x)P_{data}(x)Pdata(x)，生成数据。1. 最大似然估计近似任何复杂的问题都可以拆解为简单的问题。在机器学习中最大似然估计...

2018-12-14 06:48:36 834

原创机器学习与深度学习系列连载：第四部分对抗网络GAN（一) 对抗网络介绍 GAN Introduction

对抗网络介绍 GAN Introduction1. 背景介绍对抗网络GAN的全称，Generative Adversarial Network (GAN) [1]是由机器学习大神，深度学习(花书)的作者lan J. Goodfellow在2014年提出。机器学习泰斗，CNN之父，在他的twitter中如此评价GAN：这是十年中，机器学习领域最伟大的算法之一。堪比于他自己在1990年提出...

2018-12-12 10:42:00 1011

原创机器学习与深度学习系列连载：第三部分强化学习（十八) 深度强化学习-模仿学习 Imitation Learning

深度强化学习-模仿学习 Imitation Learning

2018-12-11 09:30:51 2686

原创机器学习与深度学习系列连载：第三部分强化学习（十七) 深度强化学习- 稀疏奖励该怎么办？ Sparse Reward

稀疏奖励该怎么办？ Sparse Reward

2018-12-10 10:51:41 3907 1

原创机器学习与深度学习系列连载：第三部分强化学习（十六) 深度强化学习- Pathwise Derivative策略梯度

Pathwise Derivative策略梯度我们在使用Critic（评估价值）的过程中，传统的方法只是给一个评估的值得大小，我们利用评估的值，采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价，而且给出actor下一步的建议呢。（就像老师不但把我们作业批改了，然后还给出了怎么做好作业的建议，而传统的Critic知只是一个能给我们批改作业的老师，但...

2018-12-09 13:52:23 2862 2

原创机器学习与深度学习系列连载：第三部分强化学习（十五) 深度强化学习- Actor-Critic的集大成者：A3C

Actor-Critic的集大成者：A3C

2018-12-09 11:05:08 640

原创机器学习与深度学习系列连载：第三部分强化学习（十四) 深度强化学习-策略梯度与OpenAI的当家算法：PPO（2）

策略梯度与OpenAI的当家算法：PPO（2）1. 从在线策略到离线策略（on policy and off policy）• On-policy: Agent 学习和交互的环境是同一个环境• Off-policy: Agent 学习和交互的环境是不是同一个环境举例：下棋的时候是自己下棋就是on policy下棋前先看别人下棋，然后自己总结经验来下棋，就是off policy为什...

2018-12-07 10:07:16 1044

原创机器学习与深度学习系列连载：第三部分强化学习（十三) 深度强化学习-策略梯度与OpenAI的当家算法：PPO（1）

策略梯度与OpenAI的当家算法：PPO

2018-12-07 08:34:08 1198

原创机器学习与深度学习系列连载：第三部分强化学习（十二) 深度强化学习- Q learning进阶： Double DQN和 Dulling DQN

Q learning进阶： Double DQN和 Dulling DQN

2018-12-06 10:02:22 947

原创机器学习与深度学习系列连载：第三部分强化学习（十一) 深度强化学习- Q learning的算法剖析

Q learning的算法剖析

2018-12-05 10:48:28 687

原创机器学习与深度学习系列连载：第三部分强化学习（十) 深度强化学习

深度强化学习15年2月：Google在nature上的文章，用RL玩atari游戏，可以超越人类玩家表现。16年春天：基于RL的Alphago横扫人类棋手。其实AI被大众所熟知，并不是2012年的imagenet的突破，而是AlphaGo。AlphaGo的核心原理就是深度强化学习。也就是用深度神经网络实现的强化学习算法。1. 原理复习Agent和EnvironmentAge...

2018-12-05 06:45:38 800

原创机器学习与深度学习系列连载：第三部分强化学习（九) 探索与利用

探索与利用本篇系统的介绍了在强化学习领域如何有效的进行探索，给出了几类探索算法，通过引入后悔值，借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性，随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。1. 简介 Introduction探索和利用的困局：利用是做出当前信息下的最佳决定，探索则是尝试不同的行为继而收集更多的信息。最好的长期战...

2018-12-04 08:35:26 3285

原创机器学习与深度学习系列连载：第三部分强化学习（八) 整合学习与规划 (Alpha Go 基本原理)

整合学习与规划本篇之前所有的内容都没有提及到个体如何构建一个模拟环境的模型，自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助。本篇即关注这两个问题。通过构建一个模型，个体具备了一定程度的独立思考能力，即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验，个体在解决大规模MDP问题时可以取得更好的结果。本...

2018-12-02 08:17:40 2238 1

原创机器学习与深度学习系列连载：第三部分强化学习（七) 策略梯度

策略梯度前一篇主要讲解的是价值函数的近似，然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a)，通过借助策略相关的目标函数梯度的引导，寻找与目标函数的极值，进而得到最优策略。1. 简介 Introduction上一篇主要内容是如何对价值函数进行近似的参数化表达，包括状态价值函数和行为价值函数：随后一个策略可以直接从价值函数中产生，比如使用Ɛ-gr...

2018-12-01 07:47:47 2947

原创机器学习与深度学习系列连载：第三部分强化学习（六) 价值函数的近似表示

价值函数的近似表示通过强化学习的基础理论，只能解决一些中小规模的问题，很多价值函数需要用一张大表来存储，获取某一状态或行为价值的时候通常需要一个查表操作（Table Lookup），这对于那些状态空间或行为空间很大的问题几乎无法求解，而许多实际问题都是这些拥有大量状态和行为空间的问题，因此只掌握强化学习的基础理论，是无法较好的解决实际问题的。本篇开始的内容就主要针对如何解决实际问题。本篇主要解...

2018-11-30 09:27:03 3009

原创机器学习与深度学习系列连载：第三部分强化学习（五) 不基于模型的控制（SARSA、Q-Learning）

不基于模型的控制通过本篇的学习，我们将会学习到如何训练一个Agent，使其能够在完全未知的环境下较好地完成任务，得到尽可能多的奖励。1.简介 Introduction上一篇主要讲解了在模型未知的情况下如何进行预测。所谓的预测就是评估一个给定的策略，也就是确定一给定策略下的状态（或状态行为对）的价值函数。这篇的内容主要是在模型未知的条件下如何优化价值函数，这一过程也称作模型无关的控制。现实中...

2018-11-28 11:25:21 1829

原创机器学习与深度学习系列连载：第三部分强化学习（四) 不基于模型的预测（蒙特卡洛方法MC、时序差分TD）

不基于模型的预测1. 简介 Introduction通过先前的博客，我们明白了如何从理论上解决一个已知的MDP：通过动态规划来评估一个给定的策略，并且得到最优价值函数，根据最优价值函数来确定最优策略；直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本篇开始讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题，也就是讲述如何直接从Agent与环境的交互来得得...

2018-11-27 06:52:07 2940

原创机器学习与深度学习系列连载：第三部分强化学习（三) 动态规划寻找最优策略

动态规划寻找最优策略利用动态规划来进行强化学习，具体是进行强化学习中的“规划”，也就是在已知模型的基础上判断一个策略的价值函数，并在此基础上寻找到最优的策略和最优价值函数，或者直接寻找最优策略和最优价值函数。本节是整个强化学习课程核心内容的开端。1. 简介动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需...

2018-11-26 07:15:00 2800

原创机器学习与深度学习系列连载：第三部分强化学习（二) 马尔科夫决策过程 MDP

马尔科夫决策过程 MDP在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。1.马尔科夫过程 Markov Process某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再...

2018-11-24 22:58:29 1944 3

原创机器学习与深度学习系列连载：第三部分强化学习（一) 强化学习简介

强化学习简介随着DeepMind公司开发的AlphaGo升级版master战胜围棋世界冠军，其背后应用的强化学习思想受到了广泛关注，也吸引了一批喜欢思考的小伙伴，想一探究竟为什么强化学习的威力这么大。本专栏主要围绕**“大名鼎鼎的围棋程序master”**的主要作者David Silver主讲的UCL-Course-强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程，较为系统、全面地介绍了...

2018-11-20 06:53:10 1571

转载（干货）各大AI竞赛 Top 解决方案开源汇总+大牛经验（Kaggle，Ali，Tencent、JD、KDD Cup...）

各大AI竞赛 Top 解决方案开源汇总现在，越来越多的企业、高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才，并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案，也为之后的数据研究者留下有价值的经验。1.纯数据竞赛（1）科大讯飞 AI 营销算法大赛本次大赛要求参赛者基于提供的讯飞 AI 营销云的海量广告投放数据，通过人工智能技术构建来预测模型预估用...

2018-11-18 06:50:08 8034 1

原创机器学习与深度学习系列连载：第二部分深度学习（二十五) 递归神经网络Resursive Network

递归神经网络Resursive Network

2018-11-16 22:50:47 428

原创机器学习与深度学习系列连载：第二部分深度学习（二十四) Pointer Network

Pointer Network

2018-11-16 22:07:24 1023

原创机器学习与深度学习系列连载：第二部分深度学习（二十三) 空间转换层 Spatial Transfer Layer

空间转换层 Spatial Transfer Layer

2018-11-16 09:08:33 1180

原创机器学习与深度学习系列连载：第二部分深度学习（二十二) 机器记忆 Machine Memory

机器记忆 Machine Memory我们已经讨论过Attention机制，基于注意力机制，我们继续讨论 Memory Network。1. 外部存储我们进行DNN或者RNN之前，数据可以用Readiing controller 从外部读取进来。Ref: http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/At...

2018-11-15 22:24:32 744

原创机器学习与深度学习系列连载：第二部分深度学习（二十一) Beam Search

Beam Search由于在NLP中Vocabulary的量非常大，Test过程中选择结果序列是一件非常头疼的事情。如果每一步都用最大概率去选择不一定得到最好的而结果。1. Beam Search算法来源我们还是以NLP产生字母为例：请看下图：如果按照最大概率去选，选择红色的箭头路线，其实没有绿色箭头路线总的结果好。2. Beam Search算法一般的，我们每次取概率最大的k...

2018-11-15 09:04:33 497

原创机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

计划采样 Scheduled Sampling当我们用Seq2Seq模型进行训练和测试的时候，很容易遇到Mismatch的问题，因为训练的时候，不同的timestep输入的是groudTruth的值，但是测试的时候，不同的timestep输入的是生成的值。具体我们看下面的解释。1. 训练和测试的Mismatch训练的时候：测试的时候：Testing: The inputs are t...

2018-11-14 09:33:44 1266

原创机器学习与深度学习系列连载：第二部分深度学习（十九) 注意力机制 Attention

注意力机制 Attention我们以机器翻译为例，来探究引入注意力机制Attention：当我们使用Seq2Seq 进行机器翻译的过程中，最后的输入对结果影响响度比较大，因为Encode的输出是在尾部（图中粉红色部分）。直觉上想，一段话的翻译的的过程中，输入句子的每一个部分都可能对正在翻译的内容会有不同的影响。1. 模型定义(1) 我们定义z与h进行match，二者先看一下模型示意图：...

2018-11-14 09:08:15 1182 1

原创机器学习与深度学习系列连载：第二部分深度学习（十八) Seq2Seq 模型

Seq2Seq 模型Seq2Seq 模型是自然语言处理中的一个重要模型，当然，这个模型也可以处理图片。特点是：Encoder-Decoder 大框架适用于语言模型、图片模型、甚至是预测1. RNN相关的生成应用：(1) 作诗(2) 图片生成pixel RNN2. 条件生成Condition Generation：我们生成的结构化的结果是基于一个条件的基础，并不是随机生...

2018-11-13 09:07:05 543

空空如也

空空如也