深度学习
文章平均质量分 60
芷若初荨
每天进步一小点,跨越未来一大步!朝梦想不断前进!
展开
-
强化学习课程学习(8)——基于连续动作空间上的方法求解RL
策略梯度提供了和DQN之类的方法不同的新思路,但是我们上面的蒙特卡罗策略梯度reinforce算法却并不完美。由于是蒙特卡罗法,我们需要完全的序列样本才能做算法迭代,同时蒙特卡罗法使用收获的期望来计算状态价值,会导致行为有较多的变异性,我们的参数更新的方向很可能不是策略梯度的最优方向。这时可以考虑结合value-based强化学习方法来解决——AC算法Actor-CriticPolicy Based+Value Based结合的策略梯度方法Actor-Critic从名字上看包括两部分,演员(Actor原创 2020-06-22 16:33:44 · 2247 阅读 · 2 评论 -
强化学习课程学习(7)——基于策略梯度方法求解RL
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如策略梯度(Policy Gradient)、Actor-Critic、Asynchronous Advantage Actor-critic(以下简称A3C)等。整体来看下强化学习的分类:Value Based强化学习方法存在很多不足之处,主要体现以下几原创 2020-06-22 16:24:41 · 850 阅读 · 0 评论 -
强化学习课程学习(6)——基于深度学习方法求解RL
在之前讲到了强化学习求解方法,无论是动态规划DP,蒙特卡罗方法MC,还是时序差分TD,使用的状态都是离散的有限个状态集合SSS。此时问题的规模比较小,比较容易求解。但是假如我们遇到复杂的状态集合呢?甚至很多时候,状态是连续的,那么就算离散化后,集合也很大,此时我们的传统方法,比如Q-Learning,根本无法在内存中维护这么大的一张Q表。对此,随着深度学习地方法的发展兴起,基于深度学习的算法模型开始流行起来——Deep Q-learning、Nature DQN、Double DQN、Prioritized原创 2020-06-22 16:22:50 · 763 阅读 · 0 评论 -
强化学习课程学习(5)——基于Q表格的方式求解RL之Model-Free类型的方法
在上一章节主要是阐述了基于模型的方法来求解强化学习的预测问题和控制问题,但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型PPP都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?由此,model-free类型的方法就产生了,其中常见的方法是:蒙特卡罗(Monte-Calo, MC)、ARSAR、Q-learning`.蒙特卡罗(MC)求解蒙特卡洛法是一种通过采样近似求解问题原创 2020-06-22 16:15:18 · 604 阅读 · 0 评论 -
强化学习课程学习(4)——基于Q表格的方式求解RL之Model-Based类型的方法
经过初始了解强化学习的基本要素后,单单地凭借着这些要素还是无法构建强化学习模型来帮助我们解决实际问题,那么最初地模型是基于Q表格的方式来解决问题,常见的模型可以分成model-based和model-free两大类别,model-based常见的有MDP、DP;model-free常见的有MC、RASRA、Q-learning。在本小章主要是阐述Model-based类型的常见方法。基于Q表格的算法的思维导图马尔可夫决策过程求解有了这些基本要素,仍旧无法构建强化学习模型来帮助我们解决实际问题,在此原创 2020-06-22 16:13:03 · 862 阅读 · 0 评论 -
强化学习课程学习(3)——初识Reinforcement Learning
在整理一些相关的数学基础知识后,接下来就让我们来和Reinforcement Learning来个第一次的约会????????吧!个人觉得,在学习一个新知识的过程中,一般都会是What->How->Why的思路去认识以及理解这个新知识,那么下面就按照这个思路开始描述强化学习门技术????????——什么是强化学习?强化学习(英语:Reinforcement Learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。核心思想:智能体agent在原创 2020-06-17 11:14:48 · 1545 阅读 · 0 评论 -
强化学习课程学习(2)——必备数学基础集锦
在了解了深度学习的基本理论以后,可以开始不断的去深入了解背后的原理是什么。为什么图片能被计算机读取?为什么我们可以用CNN对成千上万中图片进行分类,这背后的原理是什么?在了解原理之前,因为无论是深度学习还是机器学习,背后都是有一些数学原理和公式推导的,所以掌握必备的数学知识必不可少,在加入百度AI Studio开展的强化学习的课程的过程中,百度大佬提供了这些以后需要用到的数学基础知识,正好罗列收藏整理下,以方便以后自己学习过程中需要的时候可以查看——数学基础知识数据科学需要一定的数学基础,但仅仅做应..原创 2020-06-17 10:57:32 · 3751 阅读 · 1 评论 -
强化学习课程学习(1)——深度学习前期回顾
在实习的过程中给,碰到有个项目是有关医疗行业中某种疾病的预测,正好需要加补点强化学习的相关基础以及知识,经过朋友推荐,考虑并加入了百度AI Studio开展的强化学习课程,以便于提升自己的知识面,下面是由大度大佬提供的学习资料——一、深度学习的发展历程1.1 Turing Testing (图灵测试)图灵测试是人工智能是否真正能够成功的一个标准,“计算机科学之父”、“人工智能之父”英国数学家图灵在1950年的论文《机器会思考吗》中提出了图灵测试的概念。即把一个人和一台计算机分别放在两个隔离的房间中,.原创 2020-06-17 10:51:25 · 1501 阅读 · 0 评论 -
项目实战——工业离散器件符合率的预测
数据背景介绍数据来源于DataFuntain中的离散制造过程中典形工件的质量符合率预测, 以某典型工件生产过程为例,我们将提供给参赛者一系列工艺参数,以及在相应工艺参数下所生产工件的质量数据。数据下载地址:[数据下载地址(百度云)](链接:https://pan.baidu.com/s/1AqlRVHrDAUHHt50eZsXK8A提取码:7pie )(如若失效了,请可以自行官网下载或者联...原创 2020-03-08 22:57:04 · 1384 阅读 · 18 评论 -
PyTorch深度学习框架——初识
PyTorch深度学习框架简单介绍PyTorch 是一个针对深度学习, 并且使用GPU 和CPU来优化的tensor library(张量库)。学过Tensorflow的人或许有话说,这些事情Tensorflow也能做到的呀?那么pyTorch到底有什么可以很快在深度学习爱好者中迅速发展起来的呢?其实相比较于Tensorflow,两者还是存在不同之处——PyTorch更有利于研究人员...原创 2019-12-23 17:35:39 · 839 阅读 · 0 评论 -
如何科学地评估和评判深度学习模型?
最近在考虑要发Paper,在模型的性能比较中,除了采用Precision/Recall的比较之外,为了进一步验证论文中的选择是存在可证明性的,因此考虑了使用F-test对多种模型算法进行统计显著性检验。常见的模型评估与方法误分率(misclassification rate),即准确度。精确率(precision)和召回率(recall)计算F1ROC曲线,ROC_AUCk-fold...原创 2019-10-22 17:05:36 · 2013 阅读 · 1 评论 -
SSD算法思想和结构详解
具体详情可以转我的博客-SSD算法思想和结构详解进行查看!原创 2019-10-09 12:21:47 · 433 阅读 · 0 评论 -
深度学习框架-Tensorflow基础学习
Tensorflow简介1. Tensorflow是一个编程系统,使用图来表示计算任务。使用图来表示计算任务. 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组. TensorFlow 程序通常被组织成一个构建阶段和一个执行阶段. 在构建阶段, o...原创 2019-09-25 16:45:16 · 935 阅读 · 0 评论