芝士小季-CSDN博客

原创 Docker Desktop - Unexpected WSL error

解决方案主要来自于Docker Github issues。确认docker前端和WSL后端没有问题之后。

2024-02-25 20:06:16 2341 1

原创时间同步服务 Chrony 和 NTPd

时间同步服务 Chrony 和 NTPd

2024-02-25 19:10:01 1643 1

原创 CentOS包管理器yum和rpm

CentOS包管理器yum和rpm

2024-02-25 18:32:13 1779 1

原创 NFS Network File System 网络文件系统

NFS通常用于在UNIX和类UNIX操作系统之间共享文件，允许用户在网络上共享和访问文件。NFS的工作方式是，服务器端将文件系统挂载（Mount）到网络上，客户端系统可以通过NFS协议访问这些挂载的文件系统。NFS提供了透明的访问，用户可以像操作本地文件一样操作远程文件。在CentOS 7系统中，需要安装nfs-utils，rpcbind软件包来提供NFS共享服务。手动加载NFS共享服务时，应该先启动rpcbind，再启动NFS。前者用于NFS共享发布和访问，后者用于RPC支持。4. 启动NFS服务。

2024-02-19 15:54:37 1027 1

原创使用Nginx搭建CloudStack本地镜像站

具体来说，这个配置项允许管理员指定一组内部网站的URL地址，这些网站被认为是可信任的，CloudStack可以从这些网站下载虚拟机镜像和其他存储数据。这有助于确保安全存储只能从已知且受信任的来源获取数据，以提高系统的安全性。secstorage.allowd.internel.sites是一个配置选项，用于指定哪些内部网站（Internal Sites）是允许的用于安全存储（Secondary Storage）的。autoindex_exact_size on：这个参数会在目录列表中显示文件的精确大小。

2024-02-13 00:58:01 593 1

原创重要性采样

估计一个不同分布的期望Ex∼pfx)]∫xpxfxdx∫xqxqxpxfxdxEx∼qqxpxfx将每个实例的权重重新分配为βxqxpx。

2023-12-14 17:45:28 133 1

原创模型无关控制方法

一些能够被建模成的问题示例电梯，平行泊车，船舶操纵，生物反应器，直升机，飞机物流，机器人行走，围棋对弈模型无关的控制能够解决上述问题。

2023-12-14 17:31:42 161 1

原创蒙特卡洛价值预测

直接从经验片段进行学习蒙特卡洛是模型无关的：未知马尔可夫决策过程的状态转移/奖励蒙特卡洛从完整的片段中进行学习：没有使用bootstrapping的方法蒙特卡洛采用最简单的思想：值（value）= 平均累计奖励（mean return）只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中即，所有的片段都有终止状态。

2023-12-14 09:49:08 197 1

原创蒙特卡洛方法

在现实问题中，通常没有明确地给出状态转移Psas′和奖励函数R例如，我们仅能观察到部分片段（episodes）s01a01Rs01s11a11Rs11s21a21Rs21s31⋯sT1s02a02Rs02s12a12Rs12s22a22Rs22s3。

2023-12-13 23:05:43 97 1

原创基于模型的强化学习

MDP由一个五元组构成SAPsaγRSAPsaγR，其中状态转移PPP和奖励函数RRR构成了动态系统动态系统和策略交互的占用度量ρπsaEa∼πss′∼psa∑t0TγtpstsataρπsaEa∼πss′∼psat0∑Tγtpstsata一个白盒环境给定的情况下，可用动态规划的方法求解最优策略（值迭代和策略迭代）如果环境是黑盒。

2023-12-13 22:49:40 239 1

原创基于动态规划的强化学习

ERs0γRs1γ2Rs2⋯γ∈01是未来奖励的折扣因子，使得和未来奖励相比起来智能体更重视即时奖励以金融为例，今天的$1比明天的$1更有价值给定一个特定的策略πsS→A即，在状态s下采取动作aπs给定策略π定义VπsERs0γRs1γ2Rs2⋯∣s0sπ即，π。

2023-12-13 19:56:50 253 1

原创马尔可夫决策过程

是一个或多个事件、随机系统或者随机现象随时间发生演变的过程PSt1∣S1St。

2023-12-13 19:53:26 887 1

原创探索与利用

动手学强化学习

2023-12-13 15:05:40 167 1

原创强化学习简介