神经网络
文章平均质量分 80
人工智能插班生
双一流大学人工智能方向博士,Google GDE。已经发表SCI论文多篇,CSDN专栏文章、知乎文章近百篇(机器学习专栏、深度学习专栏、强化学习专栏、自然语言处理NLP专栏)
展开
-
机器学习与深度学习系列连载: 第一部分 机器学习(十六)非监督度学习-3 Unsupervised Learning-3(Auto-Encoder)
Auto-EncoderAuto-Encoder 原理很简单,但是应用范围很广,本节重点讨论它的应用。我们从PCA开始:当然中间的影藏层可以很深:我们的图像效果:当然,Auto-Encoder 并不是图像处理的专利,而且也可以处理文本。在图形处理CNN中的应用(CNN以后会重点讲解)...原创 2018-10-06 11:01:08 · 379 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十五) 深度强化学习- Actor-Critic的集大成者:A3C
Actor-Critic的集大成者:A3C原创 2018-12-09 11:05:08 · 601 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN(二) 对抗网络 GAN背后的理论
对抗网络 GAN背后的理论对抗网络GAN是由生成器Generator最终生成图片、文本等结构化数据。生成器能生成结构化数据的原理是什么呢?简而言之:就是让生成器Generator找到目标图片、文本的信息的概率密度函数。通过概率密度函数Pdata(x)P_{data}(x)Pdata(x),生成数据。1. 最大似然估计近似任何复杂的问题都可以拆解为简单的问题。 在机器学习中最大似然估计...原创 2018-12-14 06:48:36 · 802 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十二) 深度强化学习- Q learning进阶: Double DQN和 Dulling DQN
Q learning进阶: Double DQN和 Dulling DQN原创 2018-12-06 10:02:22 · 880 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十一) 深度强化学习- Q learning的算法剖析
Q learning的算法剖析原创 2018-12-05 10:48:28 · 641 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(七) 策略梯度
策略梯度前一篇主要讲解的是价值函数的近似,然后根据价值函数来制定策略。本篇中策略P(a|s)将从一个概率集合变成策略函数本身π(s,a),通过借助策略相关的目标函数梯度的引导,寻找与目标函数的极值,进而得到最优策略。1. 简介 Introduction上一篇主要内容是如何对价值函数进行近似的参数化表达,包括状态价值函数和行为价值函数:随后一个策略可以直接从价值函数中产生,比如使用Ɛ-gr...原创 2018-12-01 07:47:47 · 2813 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(五) 不基于模型的控制(SARSA、Q-Learning)
不基于模型的控制通过本篇的学习,我们将会学习到如何训练一个Agent,使其能够在完全未知的环境下较好地完成任务,得到尽可能多的奖励。1.简介 Introduction上一篇主要讲解了在模型未知的情况下如何进行预测。所谓的预测就是评估一个给定的策略,也就是确定一给定策略下的状态(或状态行为对)的价值函数。这篇的内容主要是在模型未知的条件下如何优化价值函数,这一过程也称作模型无关的控制。现实中...原创 2018-11-28 11:25:21 · 1741 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习
深度强化学习15年2月:Google在nature上的文章,用RL玩atari游戏,可以超越人类玩家表现。16年春天:基于RL的Alphago横扫人类棋手。其实AI被大众所熟知,并不是2012年的imagenet的突破,而是AlphaGo。AlphaGo的核心原理就是深度强化学习。 也就是用深度神经网络实现的强化学习算法。1. 原理复习Agent和EnvironmentAge...原创 2018-12-05 06:45:38 · 765 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(四) 不基于模型的预测(蒙特卡洛方法MC、时序差分TD)
不基于模型的预测1. 简介 Introduction通过先前的博客,我们明白了如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本篇开始讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是讲述如何直接从Agent与环境的交互来得得...原创 2018-11-27 06:52:07 · 2855 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(六) 价值函数的近似表示
价值函数的近似表示通过强化学习的基础理论,只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握强化学习的基础理论,是无法较好的解决实际问题的。本篇开始的内容就主要针对如何解决实际问题。本篇主要解...原创 2018-11-30 09:27:03 · 2913 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(八) 整合学习与规划 (Alpha Go 基本原理)
整合学习与规划本篇之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助。本篇即关注这两个问题。通过构建一个模型,个体具备了一定程度的独立思考能力,即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验,个体在解决大规模MDP问题时可以取得更好的结果。本...原创 2018-12-02 08:17:40 · 2108 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (四) 对抗网络 Cycle GAN
对抗网络GAN (四) 对抗网络 Cycle GAN我们目前看到的GAN都是有正确结果做参照的GAN(Supervised),但是如果没有正确结果做参照(Unsupuervised)的。最典型的例子就是风格迁移了(和Style Transfer算法不通,我们这里考虑用GAN),我们要把普通的照片迁移成梵高的画作,以前是没有这样的例子的,无从参考。我们还可以把进行声音转换:男人的声音转换成女...原创 2018-12-20 07:03:30 · 535 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十三) 深度强化学习-策略梯度与OpenAI的当家算法:PPO(1)
策略梯度与OpenAI的当家算法:PPO原创 2018-12-07 08:34:08 · 1136 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十四) 深度强化学习-策略梯度与OpenAI的当家算法:PPO(2)
策略梯度与OpenAI的当家算法:PPO(2)1. 从在线策略到离线策略(on policy and off policy)• On-policy: Agent 学习和交互的环境是同一个环境• Off-policy: Agent 学习和交互的环境是不是同一个环境举例:下棋的时候是自己下棋 就是on policy下棋前先看别人下棋,然后自己总结经验来下棋,就是off policy为什...原创 2018-12-07 10:07:16 · 977 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (六) 对抗网络 (EBGAN,Info GAN,Bi GAN,VAE-GAN, Seq2Seq GAN)
对抗网络 EBGAN1. Energy-based GAN(EBGAN)EBGAN 其实就是 鉴别器Discriminator,提前用AutoEncoder训练过的GANEBGAN的优势:GAN的训练比较麻烦,而AutoEncoder相对简单,EBGAN可以减少训练时间EBGAN的 discriminator 只会给有限的空间的值大的估计...原创 2018-12-25 09:29:06 · 1177 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (三) 对抗网络 Conditional GAN (CGAN)
对抗网络 Conditional GAN (CGAN)首先,我们先举一个例子,文本转换成图片:Text to Image.有过机器学习经验的同学肯定会想到,用监督学习就可以做到:不断地用监督的数据进行训练。但是,真实世界中,非监督数据远远大于带标记的监督数据。 那我们考虑,如何利用GAN,来生成图片呢。Scott Reed, et al 在2016年ICML 提出Conditional...原创 2018-12-19 09:25:25 · 1016 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (五) 对抗网络 Wasserstein GAN
对抗网络 Wasserstein GAN1. 传统Traditional GAN的问题1. JS 距离衡量存在问题在大多数例子中PGP_GPG和PdataP_{data}Pdata 中间是不重叠的生成器的目的就是要让PGP_GPG接近PdataP_{data}Pdata,那么GAN中的JS divergence 无法有一个过渡的过程,在 PGP_GPG接近PdataP_{da...原创 2018-12-23 21:18:44 · 921 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN(一) 对抗网络介绍 GAN Introduction
对抗网络介绍 GAN Introduction1. 背景介绍对抗网络GAN的全称,Generative Adversarial Network (GAN) [1]是由机器学习大神,深度学习(花书)的作者lan J. Goodfellow在2014年提出。机器学习泰斗,CNN之父,在他的twitter中如此评价GAN:这是十年中,机器学习领域最伟大的算法之一。堪比于他自己在1990年提出...原创 2018-12-12 10:42:00 · 959 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (九) 对抗网络 (RankGAN + GAN家族总结)
对抗网络 (RankGAN + GAN总结)1.RankGAN这个模型不一样的地方在于,将原来的Discriminator从二分类模型变为一个排序模型,也就是一个Leaning to Rank的问题.所以模型的两个神经网络为:一个generator和一个ranker.其中G为生成的样本,H为抽样的真实的样本,U为抽样的真实的样本.(没错,这里是两个都是真实样本)基本思想就是分别计算G和U...原创 2018-12-28 11:24:22 · 1792 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第四部分 对抗网络GAN (八) 对抗网络 (Unsupervised Conditional Sequence Generation)
对抗网络 (Unsupervised Conditional Sequence Generation)现实世界中,非监督数据占据绝大多数,GAN可以利用非监督数据进行结构化数据生成。1. 文本转换 Text Transfer我们经常使用GAN做图片生成,其实除了图片这样的结构化数据外,文本转换也是GAN可以做到的。我们可以使用Cycle GAN的技术进行文本的“情绪”转换由于文本是...原创 2018-12-28 10:54:22 · 597 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十八) 深度强化学习-模仿学习 Imitation Learning
深度强化学习-模仿学习 Imitation Learning原创 2018-12-11 09:30:51 · 2521 阅读 · 0 评论 -
第四部分 对抗网络GAN (七) 对抗网络应用:NLP对话生成
对抗网络应用:NLP对话生成在自然语言处理NLP中,对抗网络也有它的应用空间。我们从NLP最经典的应用:Dialog Generation 对话生成开始。传统的对话生成使用的是Maxlikelyhood的思路,就是使对话生成的每一个词的概率的乘积最大。 但是效果不是很好(词库量、训练量都太大)我们先看看用Reinforcement learning的方法1.Reinforcement l...原创 2018-12-27 09:51:22 · 2404 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十七) 深度强化学习- 稀疏奖励该怎么办? Sparse Reward
稀疏奖励该怎么办? Sparse Reward原创 2018-12-10 10:51:41 · 3781 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(十六) 深度强化学习- Pathwise Derivative策略梯度
Pathwise Derivative策略梯度我们在使用Critic(评估价值)的过程中,传统的方法只是给一个评估的值得大小,我们利用评估的值,采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价,而且给出actor下一步的建议呢。(就像老师不但把我们作业批改了,然后还给出了怎么做好作业的建议,而传统的Critic知只是一个能给我们批改作业的老师,但...原创 2018-12-09 13:52:23 · 2742 阅读 · 2 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(三) 动态规划寻找最优策略
动态规划寻找最优策略利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。本节是整个强化学习课程核心内容的开端。1. 简介动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需...原创 2018-11-26 07:15:00 · 2691 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第三部分 强化学习(一) 强化学习简介
强化学习简介随着DeepMind公司开发的AlphaGo升级版master战胜围棋世界冠军,其背后应用的强化学习思想受到了广泛关注,也吸引了一批喜欢思考的小伙伴,想一探究竟为什么强化学习的威力这么大。本专栏主要围绕**“大名鼎鼎的围棋程序master”**的主要作者David Silver主讲的UCL-Course-强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,较为系统、全面地介绍了...原创 2018-11-20 06:53:10 · 1520 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二十一) Beam Search
Beam Search由于在NLP中Vocabulary的量非常大,Test过程中选择结果序列是一件非常头疼的事情。 如果每一步都用最大概率去选择不一定得到最好的而结果。1. Beam Search算法来源我们还是以NLP产生字母为例:请看下图:如果按照最大概率去选,选择红色的箭头路线,其实没有绿色箭头路线总的结果好。2. Beam Search算法一般的,我们每次取概率最大的k...原创 2018-11-15 09:04:33 · 438 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(九)Keras- “hello world” of deep learning
KerasKearas 是深度学习小白代码入门的最佳工具之一。如果想提升、练习代码能力,还是建议算法徒手python实现。复杂的深度神经网络项目还是推荐TensorFlow或者PytorchKeras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果...原创 2018-11-04 22:13:57 · 641 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(八)可以自己学习的激活函数(Maxout)
可以自己学习的激活函数(Maxout)在深度学习中激活函数有sigma, tanh, relu,还有以后会将到的selu,但是有没有一个激活函数不是人为设定的,是机器学出来的呢?对抗网络(GAN)之父Goodfellow,给我们一个肯定的答案。Learnable activation function [Ian J. Goodfellow, ICML’13]我们以两个输入的input举例,当然...原创 2018-11-04 14:25:35 · 688 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(七)深度学习技巧4(Deep learning tips- Dropout)
深度学习技巧4( Dropout)Dropout 在2012年imagenet 比赛中大放异彩,是当时CNN模型夺冠的功勋环节之一。那什么是Dropout 我们先直观的理解:练武功的时候,训练的时候脚上绑上重物等到练成下山的时候:我们从几个方面来解释Dropout1 基础定义当训练的时候,每一个神经元都有p%的可能“靠边站”当测试的时候,所有的神经元齐心协力,共同努力:2...原创 2018-11-04 14:04:03 · 430 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(六)深度学习技巧3(Deep learning tips- Early stopping and Regularization)
深度学习技巧3( Early stopping and Regularization)本节我们一起探讨 Early stopping and Regularization,这两个技巧不是深度学习特有的方法,是机器学习通用的方法。Early stopping在训练过程中,往往会得出训练的最后的结果还可能不如以前的,原因很有可能出现overfitting。 我们需要提前踩刹车,得出更好的效果。...原创 2018-11-04 08:24:57 · 486 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十五)循环神经网络 3(Gated RNN - GRU)
循环神经网络 3(Gated RNN - GRU)LSTM 是1997年就提出来的模型,为了简化LSTM的复杂度,在2014年 Cho et al. 提出了 Gated Recurrent Units (GRU)。接下来,我们在LSTM的基础上,介绍一下GRU。主要思路是:• keep around memories to capture long distance dependenci...原创 2018-11-09 09:17:33 · 516 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十四)循环神经网络 2(Gated RNN - LSTM )
循环神经网络 2(Gated RNN - LSTM )simple RNN 具有梯度消失或者梯度爆炸的特点,所以,在实际应用中,带有门限的RNN模型变种(Gated RNN)起着至关重要的作用,下面我们来进行介绍:LSTM (Long Short-term Memory )LSTM 是一个比较难理解的网络架构,有4个输入(3个Gate),1个输出1 LSTM的运算过程我们以x1,x2...原创 2018-11-09 08:54:49 · 961 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(五)深度学习技巧2(Deep learning tips- Relu)
深度学习技巧(Deep learning tips2)深度学习中我们总结出5大技巧:其中 adaptive learning rate 自适应的学习率已经在上一节和大家探讨过,我们就从新的激活函数谈起。1.新的激活函数 new activation function我们知道,激活函数在基于神经网络的深度学习中将线性变换,转换为非线性变换。是神经网络能够学到东西的重要一环。常用的激活函数有s...原创 2018-11-03 07:41:25 · 411 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(四)深度学习技巧1(Deep learning tips- RMSProp + Momentum=Adam)
深度学习技巧(Deep learning tips1)深度学习中我们总结出5大技巧:我们先从Adaptive Learning Rate 谈起,我Gradient Decent 中我们已经讨论了:AdaGrad :紧着AdaGrad的步伐,我们进一步看:1.RMSProp神经网络训练的时候,Error Surface 很有可能非常复杂RMSProp其实和AdaGrad 是一样...原创 2018-11-03 07:23:14 · 818 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(三)反向传播 Backpropagaton
反向传播 Backpropagaton神经网络之所以能够工作,反向传播 Backpropagaton 算法功不可没。上节我们一起学习了Gradient Decent, 由于可能有数百万的参数,BP算法更加高效。链式规则 Chain Rule导数可以进行传递:反向传递 Backpropagaton前向 Forward pass为每一个参数 计算原创 2018-11-01 10:29:29 · 585 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(二)梯度下降
梯度下降 Gradient Decent我们回忆深度学习“三板斧”,选择神经网络定义神经网络的好坏选择最好的参数集合其中步骤三,如何选择神经网络的好坏呢?梯度下降是目前,最有效的方法之一。方法:我们举两个参数的例子θ1\theta1θ1,θ2\theta2θ2, 损失函数是L。那么它的梯度是:那我为了求得最小值,我们有:参数不断被梯度乘以学习率η 迭代那么上述公示公...原创 2018-11-01 10:28:53 · 1056 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十二)卷积神经网络 3 经典的模型(LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet)
卷积神经网络 3 经典的模型(LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet)经典的卷积神经网络模型是我们学习CNN的利器,不光是学习原理、架构、而且经典模型的超参数、参数,都是我们做迁移学习最好的源材料之一。1. LeNet-5 [LeCun et al., 1998]我们还是从CNN之父,LeCun大神在98年提出的模型看起。参数有:Conv fil...原创 2018-11-07 09:36:19 · 1249 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十八) Seq2Seq 模型
Seq2Seq 模型Seq2Seq 模型是自然语言处理中的一个重要模型,当然,这个模型也可以处理图片。特点是:Encoder-Decoder 大框架适用于语言模型、图片模型、甚至是预测1. RNN相关的生成应用:(1) 作诗(2) 图片生成pixel RNN2. 条件生成Condition Generation:我们生成的结构化的结果是基于一个条件的基础,并不是随机生...原创 2018-11-13 09:07:05 · 487 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第二部分 深度学习(十三)循环神经网络 1(Recurre Neural Network 基本概念 )
循环神经网络 1(Recurre Neural Network 基本概念 )循环神经网络的特点:• RNNs 在每个时间点连接参数值,参数只有一份• 神经网络出了输入以外,还会建立在以前的“记忆”的基础上• 内存的要求与输入的规模有关当然,他的深度不只有一层:1. 公式表达对于输入x1…xT , 我们有记忆h和分类结果yhat 2 .RNN 语言处理模型在自然语言处理...原创 2018-11-08 10:06:35 · 783 阅读 · 0 评论