强化学习
文章平均质量分 72
农夫三犭
这个作者很懒,什么都没留下…
展开
-
机器学习——算法性能(误差)改进及调参技巧
机器学习调参技巧通常,我们训练一个机器学习算法,等其收敛后,还要用一些测试集去验证算法性能。此时,我们可能就会遇到各种各样的问题。例如,我们使用正则化的线性回归去预测房子的价格,当我们将训练好的算法应用到一组新的测试数据时,可能预测的结果误差很大,那么我们应该使用方法去改进算法呢?一些常见的方法有:...原创 2022-02-21 19:44:54 · 2072 阅读 · 0 评论 -
机器学习——反向传播推导与理解(Backpropagation, BP)
机器学习——反向传播原理与公式推导原创 2022-02-13 15:22:55 · 1500 阅读 · 0 评论 -
线性回归及logistic回归详解
机器学习线性回归logistic回归线性回归线性回归是机器学习中比较基本的一个算法。其基本思想大致可以理解为给定一个数据集,通过线性回归得到一条曲线,尽可能地去拟合这个数据集。如下图所示:那么,如何得到这样一条拟合曲线呢?一个自然而然的想法是建立一个输入xxx到输出y^\hat{y}y^的拟合函数,使得这个函数的输出y^\hat{y}y^能够尽可能地接近真实值yyy。通常,这个拟合函数可以被定义为:hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=θTxh_{\theta}\left(x\原创 2022-02-06 18:01:40 · 4151 阅读 · 0 评论 -
随机梯度下降(SGD)的一些优化方法
强烈推荐:深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam原创 2022-01-11 20:54:35 · 392 阅读 · 0 评论 -
强化学习paper绘图技巧——改进smooth
绘图利器——Seaborn强化学习的paper中离不开各种数据的可视化,绘图中如何对数据进行处理、平滑是个很重要的问题。人类高质量图片:人类低质量图片:那么如何绘制出一张高质量的图片呢?这里介绍一个绘图常用的Python库——Seaborn首先是库的安装pip install seaborn接着是库的使用,可以参考以下文章:官方链接深度强化学习实验中的paper绘图方法10分钟python图表绘制 | seaborn入门使用方法基本就是链接中博客所介绍的那样,这里主要是针对链接深度原创 2021-08-24 18:00:20 · 7315 阅读 · 17 评论 -
A3C学习笔记
由AC到A3CActor-Critic(AC)参考Actor-Critic(AC)Actor-Critic是基于Policy-Gradient的。在AC基础上有了A2C和A3C,具体介绍:强化学习AC、A2C、A3C算法原理与实现!A3C策略参数的梯度更新和Actor-Critic相比,增加了策略 π\piπ的熵(entropy)项,因此参数的更新变成了熵的求解:当神经网络输出 μ\muμ和方差 σ\sigmaσ后,会通过建立一个服从正态分布的概率分布来输出具体的action。entropy就是原创 2021-07-21 20:04:17 · 397 阅读 · 0 评论