- 博客(1141)
- 资源 (42)
- 收藏
- 关注
转载 强化学习系列之五:价值函数近似
目前,我们已经介绍了一些强化学习的算法,但是我们无法在实际问题中运用这些算法。 为什么呢?因为算法估算价值函数 (v(s)) 或者 (q(s,a)),保存这些价值函数意味着保存所有状态。而实际问题中,状态的数目非常巨大,遍历一遍的事情就别想了。比如,围棋的状态总数是(3^{19}),听说比宇宙的总原子数还多,23333。解决这个问题的方法是抽特征。对于一个状态 s, 我们抽取一些
2018-01-16 10:31:37 2069
转载 强化学习系列之四:模型无关的策略学习
文章目录 [隐藏]1. 一些前置话题2. MC Control3. SARSA4. Q Learning5. 做点实验5.1. 算法稳定性5.2. 贪婪策略的影响5.3. 不同算法的效果对比6. 总结强化学习系列系列文章 模型无关的策略学习,是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三
2018-01-16 10:27:54 877
转载 强化学习系列之三:模型无关的策略评价
文章目录 [隐藏]1. 蒙特卡罗算法2. 时差学习算法3. 一个例子4. 总结强化学习系列系列文章 上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。 由于模型无关的强化学习比较复杂,今天先介绍其中一部分——模型无关的策略评价。模型无关的策略评价是
2018-01-16 10:17:01 1421
转载 强化学习系列之二:模型相关的强化学习
文章目录 [隐藏]1. 策略迭代1.1 策略评估1.2 策略改进2. 价值迭代3. 总结性结尾(好魔性的标题)强化学习系列系列文章 上一章我们介绍了强化学习的基本假设——马尔科夫决策过程 (Markov Decision Process)。本文将介绍模型相关的强化学习算法。 有的时候,我们完全知
2018-01-16 09:51:17 1397
转载 强化学习系列之一:马尔科夫决策过程
文章目录 [隐藏]1. 马尔科夫决策过程2. 策略和价值3. 最优策略存在性和贝尔曼等式强化学习系列系列文章 机器学习一共有三个分支,有监督学习、无监督学习和强化学习。强化学习是系统从环境学习以使得奖励最大的机器学习。强化学习和有监督学习的不同在于教师信号。强化学习的教师信号是动作的奖励,有监督学习的教师信号是正确的动作。
2018-01-15 17:19:37 1868
转载 增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性:需要环境模型,即状态转移概率PsaPsa状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。相对的,蒙特卡罗方法的特点则有:
2018-01-15 10:33:23 927
转载 增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规则
2018-01-15 10:32:34 336
转载 增强学习(三)----- MDP的动态规划解法
增强学习(三)----- MDP的动态规划解法上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢?基本的解法有三种:动态规划法(dynamic programming methods)蒙特卡罗
2018-01-15 10:32:02 275
转载 增强学习(二)----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有
2018-01-15 10:31:10 378
转载 神经网络图灵机
Alex Graves gravesa@google.comGreg Wayne gregwayne@google.comIvo Danihelka danihelka@google.comGoogle DeepMind, London, UK摘要本文通过引入一个使用注意力程序进行交互的外部存储器(external memory)来增强神经网络的能力。新系统可以与图
2018-01-12 10:49:03 1735
转载 详解Python中的下划线
本文将讨论Python中下划线(_)字符的使用方法。我们将会看到,正如Python中的很多事情,下划线的不同用法大多数(并非所有)只是常用惯例而已。单下划线(_)通常情况下,会在以下3种场景中使用:1、在解释器中:在这种情况下,“_”代表交互式解释器会话中上一条执行的语句的结果。这种用法首先被标准CPython解释器采用,然后其他类型的解释器也先后采用。
2018-01-11 17:18:09 235
转载 信息论:熵与互信息
http://blog.csdn.net/pipisorry/article/details/51695283这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexit
2018-01-05 11:25:25 965
转载 Essentials of Deep Learning : Introduction to Long Short Term Memory
https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/IntroductionSequence prediction problems have been around for a long time. They are consider
2018-01-04 17:07:32 580
转载 Fundamentals of Deep Learning – Introduction to Recurrent Neural Networks
https://www.analyticsvidhya.com/blog/2017/12/introduction-to-recurrent-neural-networks/IntroductionLet me open this article with a question – “working love learning we on deep”, did th
2018-01-04 14:42:52 688
转载 RNN以及LSTM的介绍和公式梳理
前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RNN以及LSTM的算法流程并推导一遍应该是没有问题的。RNN最近做出了很多非常漂亮的成果,比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文
2018-01-04 09:33:20 204
转载 GRU与LSTM总结
一、LSTM(长短期记忆网络)LSTM是一种特殊的RNN类型,一般的RNN结构如下图所示,是一种将以往学习的结果应用到当前学习的模型,但是这种一般的RNN存在着许多的弊端。举个例子,如果我们要预测“the clouds are in the sky”的最后一个单词,因为只在这一个句子的语境中进行预测,那么将很容易地预测出是这个单词是sky。在这样的场景中,相关的信息和预测的词位置之间的间隔
2018-01-03 18:48:52 5143
转载 Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!这是RNN教程的第三部分。在前面的教程中,我们从头实现了一个循环神经网络,但是并没有涉及随时间反向传播(BPTT)算法如何计算梯度的细节。在这部分,我们将会简要介绍BPTT并解释它和传统的反向传播有何区别。我们也会尝试着理解梯度消失问题,这也是LSTM
2018-01-03 10:33:32 813
转载 Recurrent Neural Network系列2--利用Python,Theano实现RNN
Recurrent Neural Network系列2--利用Python,Theano实现RNN作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!本文翻译自 RECURRENT NEURAL NETWORKS TUTORIAL, PART 2 – IMPLEMENTING A RNN WITH
2018-01-03 10:12:38 300
转载 Recurrent Neural Network系列1--RNN(循环神经网络)概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!本文翻译自 RECURRENT NEURAL NETWORKS TUTORIAL, PART 1 – INTRODUCTION TO RNNS 。Recurrent Neural Networks(RNNS) ,循环神经网络,是一个流行的模型,已经在许
2018-01-03 09:49:09 600
转载 交叉熵代价函数(作用及公式推导
交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前,本文先简要介绍二次代价函数,以及其存在的不足。1. 二次代价函数的不足 ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时
2018-01-03 09:41:43 5128
转载 AutoEncoder 及其相关模型
引言AutoEncoder 是 Feedforward Neural Network 的一种,曾经主要用于数据的降维或者特征的抽取,而现在也被扩展用于生成模型中。与其他 Feedforward NN 不同的是,其他 Feedforward NN 关注的是 Output Layer 和错误率,而 AutoEncoder 关注的是 Hidden Layer;其次,普通的 Feedforward
2017-12-28 14:50:12 3696
翻译 利用卷积神经网络实现图像风格迁移
相信很多人都对之前大名鼎鼎的 Prisma 早有耳闻,Prisma 能够将一张普通的图像转换成各种艺术风格的图像,今天,我们将要介绍一下Prisma 这款软件背后的算法原理。就是发表于 2016 CVPR 一篇文章,“ Image Style Transfer Using Convolutional Neural Networks”算法的流程图主要如下:总得来说,就
2017-12-27 14:14:20 1975
转载 An overview of gradient descent optimization algorithms
http://ruder.io/optimizing-gradient-descent/Heap edtion Table of contents:Gradient descent variantsBatch gradient descentStochastic gradient descentMini-batch gradi
2017-12-21 17:54:36 371
转载 深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
前言(标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient d
2017-12-21 15:30:17 323
转载 梯度下降算法中的Adagrad和Adadelta
梯度下降算法目录目录AdagradAdadeltaAdagrad与梯度下降不同的是,更新规则中,对于学习率不在设置固定的值,每次迭代过程中,每个参数优化时使用不同的学习率。 假设 某次迭代时刻t,gt,i=∇θJ(θi)是目标函数对参数的梯度,普通的随机梯度下降算法,对于所有的θi都使用相同的学习率,因此迭代到第t次时
2017-12-21 15:25:54 1060
转载 深度学习笔记:优化方法总结
深度学习笔记(一):logistic分类 深度学习笔记(二):简单神经网络,后向传播算法及实现 深度学习笔记(三):激活函数和损失函数 深度学习笔记:优化方法总结 深度学习笔记(四):循环神经网络的概念,结构和代码注释 深度学习笔记(五):LSTM 深度学习笔记(六):Encoder-Decoder模型和Attention模型最近在看Google的Deep Le
2017-12-21 14:42:06 332
转载 分析 Dropout
摘要: 本文详细介绍了深度学习中dropout技巧的思想,分析了Dropout以及Inverted Dropout两个版本,另外将单个神经元与伯努利随机变量相联系让人耳目一新。过拟合是深度神经网(DNN)中的一个常见问题:模型只学会在训练集上分类,这些年提出的许多过拟合问题的解决方案;其中dropout具有简单性并取得良好的结果:Dropout上图为Dr
2017-12-18 17:52:58 6359
转载 多图|一文看懂25个神经网络模型
在深度学习十分火热的今天,不时会涌现出各种新型的人工神经网络,想要实时了解这些新型神经网络的架构还真是不容易。光是知道各式各样的神经网络模型缩写(如:DCIGN、BiLSTM、DCGAN……还有哪些?),就已经让人招架不住了。因此,这里整理出一份清单来梳理所有这些架构。其中大部分是人工神经网络,也有一些完全不同的怪物。尽管所有这些架构都各不相同、功能独特,当我在画它们的节点图时……其中潜在
2017-12-14 16:50:36 5805
转载 线性SVM与SoftMax分类器
1. 线性分类器在深度学习与计算机视觉系列(2)我们提到了图像识别的问题,同时提出了一种简单的解决方法——KNN。然后我们也看到了KNN在解决这个问题的时候,虽然实现起来非常简单,但是有很大的弊端:分类器必须记住全部的训练数据(因为要遍历找近邻啊!!),而在任何实际的图像训练集上,数据量很可能非常大,那么一次性载入内存,不管是速度还是对硬件的要求,都是一个极大的挑战。分类的时候要遍
2017-12-08 08:56:54 413
原创 Kaggle实战学习 笔记
学习笔记第一课数据与可视化#numpy科学计算工具箱import numpy as np#使用make_classification构造1000个样本,每个样本有20个featurefrom sklearn.datasets import make_classificationX, y = make_classification(1000, n_features=20, n_in
2017-11-27 17:06:30 4322
转载 event_recommendation_competition
这个案例跟推荐系统相关,预测用户可能感兴趣的event。关于这个案例更多信息打开event_recommendation_competition。这里我直接讲解第一名的解决方案。这个方案中除了包含经典的机器学习解决步骤,还融合了推荐系统里传统的解决方法:基于用户的协同过滤,基于物品的协同过滤,当然也可以融合LFM模型等等,因为这个解决方案很经典,所以我觉得值得拿出来详细讲讲。我将贴出完整代码,并且
2017-11-27 16:48:58 1311
转载 基于图的推荐算法(PersonalRank)
本博文将介绍PersonalRank算法,以及该算法在推荐系统上的应用。 将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组(u,i)表示用户u对物品i产生过行为。将个性化推荐放在二分图模型中,那么给用户u推荐物品任务可以转化为度量Uv和与Uv 没有边直接相连 的物品节点在图上的相关度,相关度越高的在推荐列表中越靠前。图中顶点的相关度主要取决与
2017-11-27 16:47:57 16976 17
转载 利用用户标签数据
在之前的博文中介绍了三种方法给用户推荐物品。 1)UserCF:给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品。 2) ItemCF:给用户推荐与他喜欢过的物品相似的物品。 3) LFM:通过一些特征来联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。 具体可以看我之前的博文。 本文我将自己实现两个算法,如有不对的地方还望指正。 本节咱们将讨论一种重要的特征表现形式
2017-11-27 16:46:18 3631
转载 LFM
LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户兴趣和物品。 相比USerCF算法(基于类似用户进行推荐)和ItemCF(基于类似物品进行推荐)算法;我们还可以直接对物品和用户的兴趣分类。对应某个用户先得到他的兴趣分类,确定他喜欢哪一类的物品,再在这个类里挑选他可能喜欢的物品。基于上面的思想,基于兴趣分类的方法大概需要解决3个问题: ①:如何
2017-11-27 16:44:21 6248 6
转载 userCF算法
一: 推荐系统任务:联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产中的双赢。长尾理论:传统80/20(%80销售额来自于20%热门商品)原则在互联网加入下受到挑战。长尾商品销售额是个不容小觑的数字,也许会超过热门商品带来的销售额。热门商品代表绝大多数用户需求,而长尾商品代表一小部分用户个性化需求。因此要发
2017-11-27 16:42:12 10162 1
转载 概率分布之间的距离度量以及python实现
概率分布之间的距离度量以及python实现1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12
2017-11-23 18:23:35 3699
转载 SparkML之回归(三)保序回归
在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景:(1)在医学领域药物剂量反应中,随着药物剂量的增加,疗效和副作用会呈现一定趋势。比如剂量越高,疗效越
2017-11-20 15:22:30 796
转载 【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析 一、整体预览 基于上篇图做了扩展,增加任务执行的相关交互 Code:指的用户编写的代码RDD:弹性分布式数据集,用户编码根据
2017-11-11 15:59:40 476
转载 Spark SQL利器:cacheTable/uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,
2017-11-10 10:13:50 644
转载 Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkCont
2017-11-10 10:11:30 232
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人