count_on_me-CSDN博客

原创 EMNIST 数据集简介

原文链接：https://zhuanlan.zhihu.com/p/55045479文章链接:https://arxiv.org/abs/1702.05373数据集下载链接：https://www.westernsydney.edu.au/icns/reproducible_research/publication_support_materials/emnistPython3 提取 EMNIST 原图见：https://github.com/anlongstory/data_p

2021-06-28 09:20:38 4367 2

转载网格环境创建

import loggingimport numpyimport randomfrom gym import spacesimport gymlogger = logging.getLogger(__name__)class GridEnv(gym.Env): metadata = { 'render.modes': ['human', 'rgb_array'], 'video.frames_per_second': 2 } def.

2020-11-02 16:24:37 326

原创强化学习环境的创建---cart-pole

"""Classic cart-pole system implemented by Rich Sutton et al.Copied from http://incompleteideas.net/sutton/book/code/pole.cpermalink: https://perma.cc/C9ZM-652R"""import mathimport gymfrom gym import spaces, loggerfrom gym.utils import seedingim.

2020-11-02 16:22:06 692

原创《强化学习》第四讲：不基于模型的预测

简介 Introduction通过先前的讲解，我们明白了如何从理论上解决一个已知的MDP：通过动态规划来评估一个给定的策略，并且得到最优价值函数，根据最优价值函数来确定最优策略；也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本讲开始将花连续两讲的时间讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题，也就是讲述如何直接从Agent与环境的交互来得得到一...

2019-01-23 10:50:32 961

原创《强化学习》第三讲：动态规划寻找最优策略

本讲着重讲解了利用动态规划来进行强化学习，具体是进行强化学习中的“规划”，也就是在已知模型的基础上判断一个策略的价值函数，并在此基础上寻找到最优的策略和最优价值函数，或者直接寻找最优策略和最优价值函数（即我们所说的策略迭代和价值迭代）。本讲是整个强化学习课程核心内容的引子，侧重点为策略迭代和值迭代方法的理解和实现。简介 Introduction动态规划算法是解决复杂问题的一个方法，算法通过...

2019-01-23 10:48:16 6408

原创《强化学习》第二讲马尔科夫决策过程

在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。马尔科夫过程 Markov Process 马尔科夫性 Markov Property某一状态信息包含了所有相关的历史，只要当前状态可...

2019-01-23 10:34:56 758

原创《强化学习》第一讲：简介

本《强化学习》是对David Sliver老师视频内容的一个整理，转自：https://zhuanlan.zhihu.com/p/28084904，并在其基础上加了一部分内容的整理和代码实现。本讲是对于强化学习整体的一个简单介绍，描述了强化学习是什么，解决什么问题，大概用什么样的方式来解决问题。介绍了强化学习中常用的概念。这些概念非常重要，贯穿于整个强化学习始终，但是在这一讲，读者仅需对这些概...

2019-01-23 10:33:29 415 1

转载动态规划的初步理解（漫画解析）

题目：有一座高度是10级台阶的楼梯，从下往上走，每跨一步只能向上1级或者2级台阶。要求用程序来求出一共有多少种走法。比如，每次走1级台阶，一共走10步，这是其中一种走法。我们可以简写成 1,1,1,1,1,1,1,1,1,1。再比如，每次走2级台阶，一共走5步，这是另一种走法。我们可以简写成 2,2,2,2,2。当然，除此之外，还有很多很多种走法。...

2018-12-04 15:24:47 388

原创深度强化学习

一、简介1、深度强化学习出现的原因传统的强化学习中当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间，这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的，如图像、声音等的数据输入。而前些年开始兴起的深度学习，刚好可以应对高维的输入，如果能将两者结合，那么将使...

2018-10-08 16:22:45 8928 1

原创 Q-learning算法实现1（matlab）

算法伪代码：得到Q表后，根据如下算法选择最优策略：以机器人走房间为例，代码实现如下：原文链接如下：https://www.jianshu.com/p/29db50000e3f注：原文中的房间状态0-5分别对应代码中1-6%机器人走房间Q-learning的实现%% 基本参数episode=100; %探索的迭代次数alpha=1;%更新步长gamma=0.8;...

2018-10-06 17:20:49 21009 5

原创强化学习基本知识

一、定义1、定义强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。注：强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决 decision making 问题，即自动进行决策，并且可以做连续决策。2、与监督学习，无监督学习的区别（1）与监督学习的区别监督学习可以描述为你在学...

2018-10-05 17:56:02 1715

原创分布式强化学习的分类

根据智能体工作方式的不同，可以将分布式强化学习分为：集中式强化学习、独立强化学习、群体强化学习和社会强化学习。具体介绍如下：1、集中式强化学习集中式强化学习通常把整个多agent 系统的协作机制看成学习的目标, 承担学习任务的是一个全局性的中央学习单元, 这个学习单元以整个多agent 系统的整体状态为输人，以对各个agent 的动作指派为输出, 采用标准的强化学习方法进行学习, 逐渐形成...

2018-09-17 17:25:26 6521

原创协同过滤算法的实现——机器学习斯坦福大学吴恩达老师

本实例为实现斯坦福大学吴恩达老师第9周16章推荐系统之协同过滤算法吴恩达老师课件中关于协同过滤算法的总结：假设电影供应商有5部电影和4个用户，用户评价了其中某一部分电影，现需预测用户对其余为评价电影的评分 u1 u2 u3 u4 m1 5 5 0 0 m2 5 ? ? 0 m3 ? ...

2018-09-06 11:07:13 954

原创推荐系统入门——初步理解

一、什么是推荐系统？推荐系统是啥？如果你是个多年电商（剁手）党，你会说是这个：如果你是名充满文艺细胞的音乐发烧友，你会答这个：没错，猜你喜欢、个性歌单，这些都是推荐系统的输出内容。从这些我们就可以总结出，推荐系统到底是做什么的。目的1. 帮助用户找到想要的商品（新闻/音乐/……），发掘长尾　　帮用户找到想要的东西，谈何容易。商品茫茫多，甚至是我们自己，也经常点开淘宝...

2018-09-05 17:57:51 1274

原创机器学习降维之主成分分析法（PCA）

主成分分析（principal component analysis）也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分），其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复。PCA主要思想PCA的基本原理就是将一个矩阵中的样本数据投影到一个新的空间中去。当把所有的数据都投射到该新空间时，我们希望平均方误差能尽可地小。PCA主要步骤将原...

2018-09-04 15:31:03 4972

原创 K-means算法及matlab实现

K-means算法是一种聚类算法，属于无监督学习。K-means算法主要做两件事情：1、簇分配；2、移动聚类中心。算法主要流程： 1. 随机地选择k个对象，每个对象初始地代表了一个簇的中心； 2. 对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇； 3. 重新计算每个簇的平均值，更新为新的簇中心； 4. 不断重复2、3，直到准则函数收敛。K-means算法伪代码Rep...

2018-08-30 19:15:42 19023 2

原创聚类及聚类算法的分类

一、聚类1、聚类概念聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。2、聚类的目标使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。3、聚类和分类的区别聚类技术通常又被称为无监督学习，因为与...

2018-08-29 23:08:39 76653 1

转载最优化问题的分类，拉格朗日乘子法

一、最优化问题的分类最优化问题可以分为一下三类：<1>无约束的优化问题，可以写成：对于第<1>类的优化问题，常常使用的方法就是Fermat定理，即使用求取f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解。<2>有等式约束的优化问题，可以写成：　　　　约束条件对...

2018-08-29 11:15:12 9272

原创支持向量机 Support Vector Machine （SVM）初步理解

文章目的：对支持向量机的内容有一个初步的了解。为了弄懂其中的内容查阅了很多资料，所以里面应该会有引用其他帖子的部分内容，如果原作者看到可以私信我，我会将您的帖子的地址付到下面。简介支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。SVM可分为三种模型：线性可...

2018-08-29 11:06:06 1635

原创伯努利分布、二项分布

伯努利分布-Bernoulli distribution伯努利分布是一种离散分布,有两种可能的结果。1表示成功，出现的概率为p(其中0分布律：性质：均值：E(X)=p 方差：var(X)=p(1-p)二项分布-Binomial Distribution二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单

2017-09-17 16:46:17 7321