
机器学习
文章平均质量分 95
介绍机器学习相关知识,主要是传统知识,包括监督学习、强化学习等
强殖装甲凯普
好奇,学习,探索,琢磨
以上纯属瞎编
展开
-
从 PG 到 TRPO 到 PPO 到 IMPALA
文章目录前言PGTRPOPPO前言PPO太经典了,但是我没有完整研究过,补一下。PG这类方法都是优化问题,找到参数θ\thetaθ最大化目标函数J(θ)J(\theta)J(θ),大多使用梯度上升的方式。优点:更好的收敛性质在高维或连续动作空间有效可以学习随机策略不会出现策略退化现象缺点:可以收敛到不动点,但往往是局部最优对策略的评估往往是低效并且高方差的数据效率和鲁棒性不行。对于目标函数的推导,这个博客写的很好。PG的目标函数有很多形式,对应不同的算法:这里vtv原创 2021-08-23 21:28:15 · 857 阅读 · 0 评论 -
Exploration Strategies in Deep Reinforcement Learning (2)
文章目录前言Intrinsic Rewards as Exploration BonusesCount-based ExplorationCounting by Density Model前言接着Exploration Strategies in Deep Reinforcement Learning (1)继续。基于Exploration Strategies in Deep Reinforcement Learning再创作。Intrinsic Rewards as Exploration Bo原创 2021-06-01 22:55:51 · 241 阅读 · 0 评论 -
Exploration Strategies in Deep Reinforcement Learning (1)
文章目录前言Classic Exploration StrategiesKey Exploration ProblemsThe Hard-Exploration ProblemThe Noisy-TV ProblemQ-Value ExplorationVariational Options前言探索-利用两难是RL中的关键主题,执行目标策略使得我们可以直接计算目标策略的状态值,但当前策略不一定是全局最优,因此需要探索避免局部最优,但这又增加了训练时间。本文为再创作,不是单纯的翻译,旨在较全面了解一下探索原创 2021-05-23 21:40:04 · 836 阅读 · 0 评论 -
强化学习中表格式算法的总结
文章目录前言The ProblemDynamic ProgrammingProsConsMonte CarloProsConsTemporal DifferenceProsCons前言之前没注意过这些推广邮件,今天看看还是不错的,顺便总结一些有用的。原文是:Summary of Tabular Methods in Reinforcement Learning。表格方法主要涉及状态和动作空间足够小,可以将值函数近似表示为数组和表的问题,都是用来估计值函数的手段。The Problem强化学习的目标原创 2021-05-06 16:26:45 · 567 阅读 · 0 评论 -
通过Bellman算子理解动态规划
文章目录前言正文Value Functions as Vectors贝尔曼算子Bπ,B∗\bf{B}_{\pi},\bf{B}_{*}Bπ,B∗Contraction and Monotonicity of Operators前言贝尔曼方程和算子算是RL的基础了,偶然间看到有人总结这个slides的内容,但其实不易懂,排版也看不习惯,我觉得还是要自己整理一下,另一个人的可以参考这里。会涉及贝尔曼算子收敛性的证明。正文Value Functions as Vectors首先将值函数表示为向量。原创 2021-05-05 20:44:15 · 3641 阅读 · 1 评论 -
torch官网seq2seq教程翻译
文章目录前言正文RequirementsLoading data filesThe Seq2Seq ModelThe EncoderThe DecoderSimple DecoderAttention DecoderTrainingPreparing Training DataTraining the ModelPlotting resultsEvaluationTraining and EvaluatingVisualizing Attention前言这是对torch官网seq2seq教程的翻译和笔记原创 2020-06-17 20:15:59 · 987 阅读 · 0 评论 -
Ubuntu下配置Anaconda,tensorflow gpu环境
文章目录前言CUDA 9.0cuDNNAnaconda创建tensorflow-gpu环境前言之前配过Windows 10下的环境,写了一篇文章,Ubuntu下的稍有不同,主要就在于有时候你要重启一下,而且需要配置镜像,不然我pip install的速度慢得令人发指,版本的选择跟Windows 10是一样的。我的环境:Ubuntu 16.04GeForce 1070CUDA 9.0主...原创 2018-12-31 21:47:53 · 1900 阅读 · 0 评论 -
python3.6使用spyder时,用gym运行render出错解决,以及合理的中断方法建议
前言在网上找了一个用gym中的cartpole(小车倒立摆)做dqn的demo,下载下来想可视化训练过程,就是看看动画,就加了一句env.render(),env是gym环境赋值的变量名,然后在anaconda中的spyder下运行,崩了 File "**/anaconda3/lib/python3.6/site-packages/pyglet/canvas/base.py", line 6...原创 2018-12-10 21:47:49 · 5885 阅读 · 1 评论 -
关于epoch、episode、iteration和batch size
文章目录batch_sizeiterationepochepisodebatch_size用minibatch方法时会定义batch_size,即把数据分几份后,每份的大小是多少。iteration迭代,每个循环的一遍,一次参数更新。用minibatch时就意味着train完一个batchepochone forward pass and one backward pass of al...原创 2018-12-07 16:18:15 · 7316 阅读 · 2 评论 -
台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结4:Ensemble
文章目录EnsembleEnsemble前面说dropout是一种ensemble,现在来讲讲ensemble。原创 2018-12-01 16:01:56 · 431 阅读 · 0 评论 -
台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结3:Auto-encoder,GAN,seq2seq相关,RNN等
文章目录RNNRNN原创 2018-11-30 17:49:22 · 1316 阅读 · 0 评论 -
台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结5:Semi-supervised Learning
文章目录Semi-supervised LearningSemi-supervised LearningSemi-supervised Learning可以分为Transductive learning与Inductive learning,二者的区别就在于训练用的unlabeled data是不是其testing data,因为没有label,所以这不能算cheating。假设unla...原创 2018-12-04 21:32:59 · 382 阅读 · 0 评论 -
台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结2:DL和CNN
文章目录Deep learningTipstraining data上表现不好换activation functionAdaptive Learning Ratetesting data(类似validation set)上表现不好Early StoppingRegularizationDropoutCNN为什么要用CNN处理图片?什么是CNNConvolutionMax poolingFlatt...原创 2018-11-29 19:43:42 · 987 阅读 · 0 评论 -
台湾NTU李宏毅的Machine Learning (2017,Fall),部分要点总结1:一些基础与classification
断断续续地看完了李宏毅老师的ML课程视频,作业还没有做完,先总结一下我觉得可以单独汇总在一起的一些tips,这些tips或许跟network的选择有关,或许跟调参有关。至于单门课程的笔记,网上挺多的。这门课程从regression过渡到neural network,然后基本就是各种与neural network相关的东西,不管是supervised learning还是unsupervised ...原创 2018-11-29 15:35:20 · 845 阅读 · 0 评论 -
解决UnicodeDecodeError: 'gbk' codec can't decode byte 0xb9 in position x: illegal multibyte sequence
第一种解决方法,增加encoding=‘UTF-8’:FILE_OBJECT= open( 'train.txt','r', encoding='UTF-8' )第二种方法,二进制读取:FILE_OBJECT= open( 'train.txt', 'rb' )参考文件...原创 2018-11-25 16:09:48 · 24806 阅读 · 0 评论 -
win10下Anaconda3-5.3.0配置python 3.6,tensorflow1.12.0的cpu以及gpu环境
文章目录前言软件下载与安装验证安装前言我的环境是windows 10,GPU是GTX 1070台式机版本,由于安装了NVIDIA GeForce Experience,我的驱动一直保持最新所以对我来说,驱动版本不是问题,但太新的话后面安装CUDA 9.0时要注意不要勾选安装驱动,虽然我也不知道勾选会怎么样,但你总不会想用就驱动吧,哈哈。下面我来说一下所需软件,如果你有哪里不清楚,最好去官...原创 2018-11-23 12:48:27 · 5798 阅读 · 1 评论