张博208-CSDN博客

转载强化学习系列之五:价值函数近似

目前，我们已经介绍了一些强化学习的算法，但是我们无法在实际问题中运用这些算法。为什么呢？因为算法估算价值函数 (v(s)) 或者 (q(s,a))，保存这些价值函数意味着保存所有状态。而实际问题中，状态的数目非常巨大，遍历一遍的事情就别想了。比如，围棋的状态总数是(3^{19})，听说比宇宙的总原子数还多，23333。解决这个问题的方法是抽特征。对于一个状态 s, 我们抽取一些

2018-01-16 10:31:37 2069

转载强化学习系列之四:模型无关的策略学习

文章目录 [隐藏]1. 一些前置话题2. MC Control3. SARSA4. Q Learning5. 做点实验5.1. 算法稳定性5.2. 贪婪策略的影响5.3. 不同算法的效果对比6. 总结强化学习系列系列文章模型无关的策略学习，是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三

2018-01-16 10:27:54 877

转载强化学习系列之三:模型无关的策略评价

文章目录 [隐藏]1. 蒙特卡罗算法2. 时差学习算法3. 一个例子4. 总结强化学习系列系列文章上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。由于模型无关的强化学习比较复杂，今天先介绍其中一部分——模型无关的策略评价。模型无关的策略评价是

2018-01-16 10:17:01 1421

转载强化学习系列之二:模型相关的强化学习

文章目录 [隐藏]1. 策略迭代1.1 策略评估1.2 策略改进2. 价值迭代3. 总结性结尾（好魔性的标题）强化学习系列系列文章上一章我们介绍了强化学习的基本假设——马尔科夫决策过程 (Markov Decision Process)。本文将介绍模型相关的强化学习算法。有的时候，我们完全知

2018-01-16 09:51:17 1397

转载强化学习系列之一:马尔科夫决策过程

文章目录 [隐藏]1. 马尔科夫决策过程2. 策略和价值3. 最优策略存在性和贝尔曼等式强化学习系列系列文章机器学习一共有三个分支，有监督学习、无监督学习和强化学习。强化学习是系统从环境学习以使得奖励最大的机器学习。强化学习和有监督学习的不同在于教师信号。强化学习的教师信号是动作的奖励，有监督学习的教师信号是正确的动作。

2018-01-15 17:19:37 1868

转载增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率PsaPsa状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：

2018-01-15 10:33:23 927

转载增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法，假设我们需要计算一个不规则图形的面积，那么图形的不规则

2018-01-15 10:32:34 336

转载增强学习（三）----- MDP的动态规划解法

增强学习（三）----- MDP的动态规划解法上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢？基本的解法有三种：动态规划法(dynamic programming methods)蒙特卡罗

2018-01-15 10:32:02 275

转载增强学习（二）----- 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有

2018-01-15 10:31:10 378

转载神经网络图灵机

Alex Graves gravesa@google.comGreg Wayne gregwayne@google.comIvo Danihelka danihelka@google.comGoogle DeepMind, London, UK摘要本文通过引入一个使用注意力程序进行交互的外部存储器（external memory）来增强神经网络的能力。新系统可以与图

2018-01-12 10:49:03 1735

转载详解Python中的下划线

本文将讨论Python中下划线（_）字符的使用方法。我们将会看到，正如Python中的很多事情，下划线的不同用法大多数（并非所有）只是常用惯例而已。单下划线（_）通常情况下，会在以下3种场景中使用：1、在解释器中：在这种情况下，“_”代表交互式解释器会话中上一条执行的语句的结果。这种用法首先被标准CPython解释器采用，然后其他类型的解释器也先后采用。

2018-01-11 17:18:09 235

转载信息论：熵与互信息

http://blog.csdn.net/pipisorry/article/details/51695283这篇文章主要讲：熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexit

2018-01-05 11:25:25 965

转载 Essentials of Deep Learning : Introduction to Long Short Term Memory

https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/IntroductionSequence prediction problems have been around for a long time. They are consider

2018-01-04 17:07:32 580

转载 Fundamentals of Deep Learning – Introduction to Recurrent Neural Networks

https://www.analyticsvidhya.com/blog/2017/12/introduction-to-recurrent-neural-networks/IntroductionLet me open this article with a question – “working love learning we on deep”, did th

2018-01-04 14:42:52 688

转载 RNN以及LSTM的介绍和公式梳理

前言好久没用正儿八经地写博客了，csdn居然也有了markdown的编辑器了，最近花了不少时间看RNN以及LSTM的论文，在组内『夜校』分享过了，再在这里总结一下发出来吧，按照我讲解的思路，理解RNN以及LSTM的算法流程并推导一遍应该是没有问题的。RNN最近做出了很多非常漂亮的成果，比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文

2018-01-04 09:33:20 204

转载 GRU与LSTM总结

一、LSTM（长短期记忆网络）LSTM是一种特殊的RNN类型，一般的RNN结构如下图所示，是一种将以往学习的结果应用到当前学习的模型，但是这种一般的RNN存在着许多的弊端。举个例子，如果我们要预测“the clouds are in the sky”的最后一个单词，因为只在这一个句子的语境中进行预测，那么将很容易地预测出是这个单词是sky。在这样的场景中，相关的信息和预测的词位置之间的间隔

2018-01-03 18:48:52 5143

转载 Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失

作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！这是RNN教程的第三部分。在前面的教程中，我们从头实现了一个循环神经网络，但是并没有涉及随时间反向传播（BPTT）算法如何计算梯度的细节。在这部分，我们将会简要介绍BPTT并解释它和传统的反向传播有何区别。我们也会尝试着理解梯度消失问题，这也是LSTM

2018-01-03 10:33:32 813

转载 Recurrent Neural Network系列2--利用Python，Theano实现RNN

Recurrent Neural Network系列2--利用Python，Theano实现RNN作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！本文翻译自 RECURRENT NEURAL NETWORKS TUTORIAL, PART 2 – IMPLEMENTING A RNN WITH

2018-01-03 10:12:38 300

转载 Recurrent Neural Network系列1--RNN（循环神经网络）概述

作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！本文翻译自 RECURRENT NEURAL NETWORKS TUTORIAL, PART 1 – INTRODUCTION TO RNNS 。Recurrent Neural Networks（RNNS），循环神经网络，是一个流行的模型，已经在许

2018-01-03 09:49:09 600

转载交叉熵代价函数（作用及公式推导

交叉熵代价函数（Cross-entropy cost function）是用来衡量人工神经网络（ANN）的预测值与实际值的一种方式。与二次代价函数相比，它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前，本文先简要介绍二次代价函数，以及其存在的不足。1. 二次代价函数的不足 ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时

2018-01-03 09:41:43 5128

转载 AutoEncoder 及其相关模型

引言AutoEncoder 是 Feedforward Neural Network 的一种，曾经主要用于数据的降维或者特征的抽取，而现在也被扩展用于生成模型中。与其他 Feedforward NN 不同的是，其他 Feedforward NN 关注的是 Output Layer 和错误率，而 AutoEncoder 关注的是 Hidden Layer；其次，普通的 Feedforward

2017-12-28 14:50:12 3696

翻译利用卷积神经网络实现图像风格迁移

相信很多人都对之前大名鼎鼎的 Prisma 早有耳闻，Prisma 能够将一张普通的图像转换成各种艺术风格的图像，今天，我们将要介绍一下Prisma 这款软件背后的算法原理。就是发表于 2016 CVPR 一篇文章，“ Image Style Transfer Using Convolutional Neural Networks”算法的流程图主要如下：总得来说，就

2017-12-27 14:14:20 1975

转载 An overview of gradient descent optimization algorithms

http://ruder.io/optimizing-gradient-descent/Heap edtion Table of contents:Gradient descent variantsBatch gradient descentStochastic gradient descentMini-batch gradi

2017-12-21 17:54:36 371

转载深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

前言（标题不能再中二了）本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient d

2017-12-21 15:30:17 323

转载梯度下降算法中的Adagrad和Adadelta

梯度下降算法目录目录AdagradAdadeltaAdagrad与梯度下降不同的是，更新规则中，对于学习率不在设置固定的值，每次迭代过程中，每个参数优化时使用不同的学习率。假设某次迭代时刻t，gt,i=∇θJ(θi)是目标函数对参数的梯度，普通的随机梯度下降算法，对于所有的θi都使用相同的学习率，因此迭代到第t次时

2017-12-21 15:25:54 1060

转载深度学习笔记：优化方法总结

深度学习笔记(一)：logistic分类深度学习笔记(二)：简单神经网络，后向传播算法及实现深度学习笔记(三)：激活函数和损失函数深度学习笔记：优化方法总结深度学习笔记(四)：循环神经网络的概念，结构和代码注释深度学习笔记(五)：LSTM 深度学习笔记(六)：Encoder-Decoder模型和Attention模型最近在看Google的Deep Le

2017-12-21 14:42:06 332

转载分析 Dropout

摘要：本文详细介绍了深度学习中dropout技巧的思想，分析了Dropout以及Inverted Dropout两个版本，另外将单个神经元与伯努利随机变量相联系让人耳目一新。过拟合是深度神经网（DNN）中的一个常见问题：模型只学会在训练集上分类，这些年提出的许多过拟合问题的解决方案；其中dropout具有简单性并取得良好的结果：Dropout上图为Dr

2017-12-18 17:52:58 6359

转载多图｜一文看懂25个神经网络模型

在深度学习十分火热的今天，不时会涌现出各种新型的人工神经网络，想要实时了解这些新型神经网络的架构还真是不容易。光是知道各式各样的神经网络模型缩写（如：DCIGN、BiLSTM、DCGAN……还有哪些？)，就已经让人招架不住了。因此，这里整理出一份清单来梳理所有这些架构。其中大部分是人工神经网络，也有一些完全不同的怪物。尽管所有这些架构都各不相同、功能独特，当我在画它们的节点图时……其中潜在

2017-12-14 16:50:36 5805

转载线性SVM与SoftMax分类器

1. 线性分类器在深度学习与计算机视觉系列(2)我们提到了图像识别的问题，同时提出了一种简单的解决方法——KNN。然后我们也看到了KNN在解决这个问题的时候，虽然实现起来非常简单，但是有很大的弊端：分类器必须记住全部的训练数据(因为要遍历找近邻啊！！)，而在任何实际的图像训练集上，数据量很可能非常大，那么一次性载入内存，不管是速度还是对硬件的要求，都是一个极大的挑战。分类的时候要遍

2017-12-08 08:56:54 413

原创 Kaggle实战学习笔记

学习笔记第一课数据与可视化#numpy科学计算工具箱import numpy as np#使用make_classification构造1000个样本，每个样本有20个featurefrom sklearn.datasets import make_classificationX, y = make_classification(1000, n_features=20, n_in

2017-11-27 17:06:30 4322

转载 event_recommendation_competition

这个案例跟推荐系统相关，预测用户可能感兴趣的event。关于这个案例更多信息打开event_recommendation_competition。这里我直接讲解第一名的解决方案。这个方案中除了包含经典的机器学习解决步骤，还融合了推荐系统里传统的解决方法：基于用户的协同过滤，基于物品的协同过滤，当然也可以融合LFM模型等等，因为这个解决方案很经典，所以我觉得值得拿出来详细讲讲。我将贴出完整代码，并且

2017-11-27 16:48:58 1311

转载基于图的推荐算法(PersonalRank)

本博文将介绍PersonalRank算法，以及该算法在推荐系统上的应用。将用户行为数据用二分图表示，例如用户数据是由一系列的二元组组成，其中每个元组(u,i)表示用户u对物品i产生过行为。将个性化推荐放在二分图模型中，那么给用户u推荐物品任务可以转化为度量Uv和与Uv 没有边直接相连的物品节点在图上的相关度，相关度越高的在推荐列表中越靠前。图中顶点的相关度主要取决与

2017-11-27 16:47:57 16976 17

转载利用用户标签数据

在之前的博文中介绍了三种方法给用户推荐物品。 1）UserCF：给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品。 2) ItemCF：给用户推荐与他喜欢过的物品相似的物品。 3) LFM：通过一些特征来联系用户和物品，给用户推荐那些具有用户喜欢的特征的物品。具体可以看我之前的博文。本文我将自己实现两个算法，如有不对的地方还望指正。本节咱们将讨论一种重要的特征表现形式

2017-11-27 16:46:18 3631

转载 LFM

LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户兴趣和物品。相比USerCF算法(基于类似用户进行推荐)和ItemCF(基于类似物品进行推荐)算法；我们还可以直接对物品和用户的兴趣分类。对应某个用户先得到他的兴趣分类，确定他喜欢哪一类的物品，再在这个类里挑选他可能喜欢的物品。基于上面的思想，基于兴趣分类的方法大概需要解决3个问题： ①：如何

2017-11-27 16:44:21 6248 6

转载 userCF算法

一：推荐系统任务：联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产中的双赢。长尾理论：传统80/20(%80销售额来自于20%热门商品)原则在互联网加入下受到挑战。长尾商品销售额是个不容小觑的数字，也许会超过热门商品带来的销售额。热门商品代表绝大多数用户需求，而长尾商品代表一小部分用户个性化需求。因此要发

2017-11-27 16:42:12 10162 1

转载概率分布之间的距离度量以及python实现

概率分布之间的距离度量以及python实现1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离：(3)两个n维向量a(x11,x12

2017-11-23 18:23:35 3699

转载 SparkML之回归(三)保序回归

在写這篇博客的时候，翻阅了一些互联网上的资料，发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误，所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景：（1）在医学领域药物剂量反应中，随着药物剂量的增加，疗效和副作用会呈现一定趋势。比如剂量越高，疗效越

2017-11-20 15:22:30 796

转载【Spark2.0源码学习】-9.Job提交与Task的拆分

在前面的章节Client的加载中，Spark的DriverRunner已开始执行用户任务类（比如：org.apache.spark.examples.SparkPi），下面我们开始针对于用户任务类（或者任务代码）进行分析一、整体预览基于上篇图做了扩展，增加任务执行的相关交互 Code：指的用户编写的代码RDD：弹性分布式数据集，用户编码根据

2017-11-11 15:59:40 476

转载 Spark SQL利器：cacheTable/uncacheTable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”，每一行有三列数据，以“\t”分隔，模拟生成文件的代码如下：执行该代码之后，文本文件会存储于本地路径：/tmp/datas，它包含1000行测试数据，

2017-11-10 10:13:50 644

转载 Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkCont

2017-11-10 10:11:30 232

llama3 study

2024-07-25

tensorrt ppt资料

tensorrt的教程，和相关的资料，案例，供大家学习

2024-07-09

GPU-知识点资料合集

bank_conflicts coalescing

2023-08-03

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书