草帽KIKI-CSDN博客

原创 Java单元测试之Mockito

本人的理解：就是在实际调用代码前，我就规定它返回什么。// 您可以模拟具体的类，而不仅仅是接口s LinkedList mockedList = mock(LinkedList . class);// 或者使用Mockito 4.10.0+更简单 // LinkedList mockedList = mock();// 存根（stubbing）在实际执行之前出现 when(mockedList . get(0)) . thenReturn("first");

2023-04-07 20:11:41 1675

原创 docker入门（四）——存储

本章学习单个docker host中的存储方案

2022-11-27 11:32:29 531

原创 docker入门（四）——网络

本章开始讨论Docker网络。介绍Docker提供的几种原生网络，以及如何创建自定义网络。然后探讨容器之间如何通信，以及容器与外界如何交互。

2022-11-25 13:41:54 931 1

原创 docker入门（三）——容器

本章介绍容器的各种操作、容器状态之间的转换以及实现容器的底层技术。

2022-11-23 20:34:21 719

原创 Docker入门（二）

docker镜像

2022-11-16 11:02:45 726

原创 Docker入门（一）

docker入门，各个概念的介绍

2022-11-14 17:16:57 179

翻译深度学习——fastai第四课 04_minist_basics

文章目录幕后:训练一个数字分类器像素：计算机视觉的基础边栏:韧性和深度学习初尝试：像素相似NumPy 数组和PyTorch 张量使用广播计算评价指标随机梯度下降（SGD）计算梯度通过学习率执行`step`一个端到端的SGD例子1 初始化参数2 计算预测值3 计算损失4 计算梯度5 执行（更新）权重6 重复过程7 终止梯度下降总结MNIST 损失函数SigmoidSGD 和小批量把它们整合在一起创建一个优化器添加一个非线性深入术语回顾问卷更多研究更多研究这章主要讲如何从头搭建你自己的深度学习框架。环境：j

2022-02-03 15:51:11 878

原创《强化学习》第七章 n步自举法

文章目录第七章 n步自举法7.1 n步时序差分预测练习7.1练习7.2（编程）例7.1 n步时序差分方法在随机游走上的应用练习7.37.2 n步Sarsa练习7.47.3 n步离轨策略学习7.4 * 带控制变量的每次决策型方法练习7.5练习7.6* 练习7.7练习7.8练习7.9练习7.10（编程）7.5 不需要使用重要度采样的离轨策略学习方法：n步树回溯算法练习 7.117.6 * 一个统一的算法：n步Q(σ)7.7 本章小结第七章 n步自举法在本章中，我们将统一前两章介绍的两种方法。单独的蒙特卡洛方

2022-01-14 17:02:50 1238

原创《强化学习》第6章时序差分学习

本章是《强化学习》第六章时序差分的内容。

2021-12-30 17:14:47 1612

原创《强化学习》第五章蒙特卡洛方法

第五章蒙特卡洛方法文章目录第五章蒙特卡洛方法5.1 蒙特卡洛预测例5.1 二十一点练习 5.1练习5.2例5.2 肥皂泡5.2 动作价值的蒙特卡洛估计练习5.35.3 蒙特卡洛控制练习5.4例5.3 解决二十一点问题5.4 没有试探性出发假设的蒙特卡洛控制5.5 基于重要度采样的离轨策略练习5.5例5.4 对二十一点游戏中的状态值的离轨策略估计例5.5 无穷方差练习 5.6练习5.7练习5.85.6 增量式实现练习5.9练习5.105.7 离轨策略蒙特卡洛控制练习5.11练习5.12（编程）*折扣敏感

2021-12-11 16:27:44 6383

原创《强化学习》第四章动态规划

动态规划（Dynamic Programming，DP）是一类优化方法，在给定一个用马尔科夫决策过程(MDP)描述的完备环境模型的情况下，其可以计算最优的策略。本章中，我们假设环境是一个有限MDP。也就是说，我们假设状态集合S、动作集合A和收益集合R是有限的，并且整个系统的动态特性由对于任意s∈S、a∈A(s)、r∈R和s′∈S+(S+s \in S、a \in A(s)、r \in R 和s' \in S^+(S^+s∈S、a∈A(s)、r∈R和s′∈S+(S+表示在分幕式任务下S加上一个终止状态）的四

2021-11-28 21:25:52 2678 1

原创第三章有限马尔科夫决策过程

文章目录3.1 “智能体-环境”交互接口例3.1 生物反应器例3.2 拾放机器人练习3.1练习3.2练习3.3例 3.3 回收机器人3.2 目标和收益练习3.43.3 回报和分幕练习3.5例3.4 杆平衡练习3.6练习3.7练习3.8练习3.9练习3.103.4 分幕式和持续性任务的统一表示法3.5 策略和价值函数练习 3.11练习 3.12练习3.13例 3.5 网格问题练习3.14练习3.15练习 3.16例 3.6 高尔夫练习3.17练习3.18练习3.193.6 最优策略和最优价值函数例 3.7 高

2021-11-23 09:41:23 2454

原创第一部分表格型求解方法：第二章多臂赌博机

第二章多臂赌博机第一部分表格型求解方法主要介绍简单强化学习所使用的算法的核心思想，这种问题可以找到最优价值函数和最优策略。在其他部分，将会介绍只能找到近似解的复杂（较大规模的动作和状态空间）强化学习问题2.1 一个k臂赌博机问题强化学习与其他机器学习方法不同的一点就在于，前者的训练信号是用来评估给定动作的好坏的，而不是通过给出正确动作范例来进行直接的指导。多臂赌博机只有一个状态（非关联性），属于一种非关联性的评估性反馈问题，适合作为一个简化的问题来介绍强化学习，之后会之间探讨完整的强化学习问题。

2021-11-15 11:21:04 1041

原创 fastai-C2-Production

C1&C2 of fastai lessonthis is my first blog recording my learning procedure of ML, inspried by Rachel Thomas’s blog.Hope it will lasts for as long as I could.And if there’s really anyone reading this, thanks and enjoy!Since I started this blog in t

2021-11-06 22:17:26 142

原创 David Silver强化学习——介绍

本系列博客是强化学习的学习笔记，学习资料：David Silver深度强化算法学习 +项目讲解强化学习基本介绍多领域交叉机器学习的分支强化学习的特点强化学习的例子强化学习中的核心概念奖励奖励的例子贯序决策环境状态 - State历史和状态环境状态 - Environment State智能体状态 - Agent State信息状态 - Information State例子：老鼠全观测环境 - Fully Observable Environments部分观测环境 - Partially Observa

2021-11-06 22:00:34 2970

原创 Welford算法的推导和实现

Welford算法的推导和实现介绍推导样本均值[^2]样本方差计算[^3]程序实现介绍该算法是最初由B.P.Welford于1962年提出的计算样本均值和样本方差的算法。算法如下1：初始化 M1=x1，S1=0M_1=x_1，S_1=0M1=x1，S1=0对于接下来的样本值xxx，使用递推公式Mk=Mk−1+xk−Mk−1kM_k=M_{k-1}+\frac{x_k-M_{k-1}}{k}Mk=Mk−1+kxk−Mk−1Sk=Sk−1+(xk−Mk−1)(xk−Mk)S_k=S

2021-08-06 15:55:47 3191

原创欧几里得算法（辗转相除法）证明

欧几里得算法（辗转相除法）证明程序实现：证明程序实现： private static int gcd(int p, int q) { if (q == 0) { return p; } else { return gcd(q, p % q); } }证明求证 gcd(p,q) = gcd(q,p%q)，其中p,q都是正整数。1证：令p=kq+r设d是p和q的一个公约数，记作d|p，d

2021-08-03 11:35:05 234

midnight_DJ的博客