2018年12月_人工智能插班生

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (九) 对抗网络（RankGAN + GAN家族总结）

对抗网络（RankGAN + GAN总结）１.RankGAN这个模型不一样的地方在于,将原来的Discriminator从二分类模型变为一个排序模型,也就是一个Leaning to Rank的问题.所以模型的两个神经网络为:一个generator和一个ranker.其中G为生成的样本,H为抽样的真实的样本,U为抽样的真实的样本.(没错，这里是两个都是真实样本)基本思想就是分别计算G和U...

2018-12-28 11:24:22 1788

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (八) 对抗网络（Unsupervised Conditional Sequence Generation）

对抗网络（Unsupervised Conditional Sequence Generation）现实世界中，非监督数据占据绝大多数，GAN可以利用非监督数据进行结构化数据生成。1. 文本转换 Text Transfer我们经常使用GAN做图片生成，其实除了图片这样的结构化数据外，文本转换也是GAN可以做到的。我们可以使用Cycle GAN的技术进行文本的“情绪”转换由于文本是...

2018-12-28 10:54:22 592

原创第四部分对抗网络GAN (七) 对抗网络应用：NLP对话生成

对抗网络应用：NLP对话生成在自然语言处理NLP中，对抗网络也有它的应用空间。我们从NLP最经典的应用：Dialog Generation 对话生成开始。传统的对话生成使用的是Maxlikelyhood的思路，就是使对话生成的每一个词的概率的乘积最大。但是效果不是很好（词库量、训练量都太大）我们先看看用Reinforcement learning的方法1.Reinforcement l...

2018-12-27 09:51:22 2396

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (六) 对抗网络（EBGAN，Info GAN，Bi GAN，VAE-GAN， Seq2Seq GAN）

对抗网络 EBGAN1. Energy-based GAN（EBGAN）EBGAN 其实就是鉴别器Discriminator，提前用AutoEncoder训练过的GANEBGAN的优势：GAN的训练比较麻烦，而AutoEncoder相对简单，EBGAN可以减少训练时间EBGAN的 discriminator 只会给有限的空间的值大的估计...

2018-12-25 09:29:06 1171

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (五) 对抗网络 Wasserstein GAN

对抗网络 Wasserstein GAN1. 传统Traditional GAN的问题1. JS 距离衡量存在问题在大多数例子中PGP_GPG和PdataP_{data}Pdata 中间是不重叠的生成器的目的就是要让PGP_GPG接近PdataP_{data}Pdata，那么GAN中的JS divergence 无法有一个过渡的过程，在 PGP_GPG接近PdataP_{da...

2018-12-23 21:18:44 920

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (四) 对抗网络 Cycle GAN

对抗网络GAN (四) 对抗网络 Cycle GAN我们目前看到的GAN都是有正确结果做参照的GAN（Supervised），但是如果没有正确结果做参照（Unsupuervised）的。最典型的例子就是风格迁移了（和Style Transfer算法不通，我们这里考虑用GAN），我们要把普通的照片迁移成梵高的画作，以前是没有这样的例子的，无从参考。我们还可以把进行声音转换：男人的声音转换成女...

2018-12-20 07:03:30 529

原创机器学习与深度学习系列连载：第四部分对抗网络GAN (三) 对抗网络 Conditional GAN （CGAN）

对抗网络 Conditional GAN （CGAN）首先，我们先举一个例子，文本转换成图片:Text to Image.有过机器学习经验的同学肯定会想到，用监督学习就可以做到：不断地用监督的数据进行训练。但是，真实世界中，非监督数据远远大于带标记的监督数据。那我们考虑，如何利用GAN，来生成图片呢。Scott Reed, et al 在2016年ICML 提出Conditional...

2018-12-19 09:25:25 1010

原创机器学习与深度学习系列连载：第四部分对抗网络GAN（二) 对抗网络 GAN背后的理论

对抗网络 GAN背后的理论对抗网络GAN是由生成器Generator最终生成图片、文本等结构化数据。生成器能生成结构化数据的原理是什么呢？简而言之：就是让生成器Generator找到目标图片、文本的信息的概率密度函数。通过概率密度函数Pdata(x)P_{data}(x)Pdata(x)，生成数据。1. 最大似然估计近似任何复杂的问题都可以拆解为简单的问题。在机器学习中最大似然估计...

2018-12-14 06:48:36 794

原创机器学习与深度学习系列连载：第四部分对抗网络GAN（一) 对抗网络介绍 GAN Introduction

对抗网络介绍 GAN Introduction1. 背景介绍对抗网络GAN的全称，Generative Adversarial Network (GAN) [1]是由机器学习大神，深度学习(花书)的作者lan J. Goodfellow在2014年提出。机器学习泰斗，CNN之父，在他的twitter中如此评价GAN：这是十年中，机器学习领域最伟大的算法之一。堪比于他自己在1990年提出...

2018-12-12 10:42:00 954

原创机器学习与深度学习系列连载：第三部分强化学习（十八) 深度强化学习-模仿学习 Imitation Learning

深度强化学习-模仿学习 Imitation Learning

2018-12-11 09:30:51 2503

原创机器学习与深度学习系列连载：第三部分强化学习（十七) 深度强化学习- 稀疏奖励该怎么办？ Sparse Reward

稀疏奖励该怎么办？ Sparse Reward

2018-12-10 10:51:41 3771 1

原创机器学习与深度学习系列连载：第三部分强化学习（十六) 深度强化学习- Pathwise Derivative策略梯度

Pathwise Derivative策略梯度我们在使用Critic（评估价值）的过程中，传统的方法只是给一个评估的值得大小，我们利用评估的值，采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价，而且给出actor下一步的建议呢。（就像老师不但把我们作业批改了，然后还给出了怎么做好作业的建议，而传统的Critic知只是一个能给我们批改作业的老师，但...

2018-12-09 13:52:23 2726 2

原创机器学习与深度学习系列连载：第三部分强化学习（十五) 深度强化学习- Actor-Critic的集大成者：A3C

Actor-Critic的集大成者：A3C

2018-12-09 11:05:08 598

原创机器学习与深度学习系列连载：第三部分强化学习（十四) 深度强化学习-策略梯度与OpenAI的当家算法：PPO（2）

策略梯度与OpenAI的当家算法：PPO（2）1. 从在线策略到离线策略（on policy and off policy）• On-policy: Agent 学习和交互的环境是同一个环境• Off-policy: Agent 学习和交互的环境是不是同一个环境举例：下棋的时候是自己下棋就是on policy下棋前先看别人下棋，然后自己总结经验来下棋，就是off policy为什...

2018-12-07 10:07:16 967

原创机器学习与深度学习系列连载：第三部分强化学习（十三) 深度强化学习-策略梯度与OpenAI的当家算法：PPO（1）

策略梯度与OpenAI的当家算法：PPO

2018-12-07 08:34:08 1130

原创机器学习与深度学习系列连载：第三部分强化学习（十二) 深度强化学习- Q learning进阶： Double DQN和 Dulling DQN

Q learning进阶： Double DQN和 Dulling DQN

2018-12-06 10:02:22 876

原创机器学习与深度学习系列连载：第三部分强化学习（十一) 深度强化学习- Q learning的算法剖析

Q learning的算法剖析

2018-12-05 10:48:28 633

原创机器学习与深度学习系列连载：第三部分强化学习（十) 深度强化学习

深度强化学习15年2月：Google在nature上的文章，用RL玩atari游戏，可以超越人类玩家表现。16年春天：基于RL的Alphago横扫人类棋手。其实AI被大众所熟知，并不是2012年的imagenet的突破，而是AlphaGo。AlphaGo的核心原理就是深度强化学习。也就是用深度神经网络实现的强化学习算法。1. 原理复习Agent和EnvironmentAge...

2018-12-05 06:45:38 758

原创机器学习与深度学习系列连载：第三部分强化学习（九) 探索与利用

探索与利用本篇系统的介绍了在强化学习领域如何有效的进行探索，给出了几类探索算法，通过引入后悔值，借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性，随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。1. 简介 Introduction探索和利用的困局：利用是做出当前信息下的最佳决定，探索则是尝试不同的行为继而收集更多的信息。最好的长期战...

2018-12-04 08:35:26 3185

原创机器学习与深度学习系列连载：第三部分强化学习（八) 整合学习与规划 (Alpha Go 基本原理)

整合学习与规划本篇之前所有的内容都没有提及到个体如何构建一个模拟环境的模型，自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助。本篇即关注这两个问题。通过构建一个模型，个体具备了一定程度的独立思考能力，即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验，个体在解决大规模MDP问题时可以取得更好的结果。本...

2018-12-02 08:17:40 2091 1

原创机器学习与深度学习系列连载：第三部分强化学习（七) 策略梯度

策略梯度前一篇主要讲解的是价值函数的近似，然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a)，通过借助策略相关的目标函数梯度的引导，寻找与目标函数的极值，进而得到最优策略。1. 简介 Introduction上一篇主要内容是如何对价值函数进行近似的参数化表达，包括状态价值函数和行为价值函数：随后一个策略可以直接从价值函数中产生，比如使用Ɛ-gr...

2018-12-01 07:47:47 2782

Doctor Wu的博客