自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Docker Desktop - Unexpected WSL error

解决方案主要来自于Docker Github issues。确认docker前端和WSL后端没有问题之后。

2024-02-25 20:06:16 1969 1

原创 时间同步服务 Chrony 和 NTPd

时间同步服务 Chrony 和 NTPd

2024-02-25 19:10:01 1182 1

原创 CentOS包管理器yum和rpm

CentOS包管理器yum和rpm

2024-02-25 18:32:13 1478 1

原创 NFS Network File System 网络文件系统

NFS通常用于在UNIX和类UNIX操作系统之间共享文件,允许用户在网络上共享和访问文件。NFS的工作方式是,服务器端将文件系统挂载(Mount)到网络上,客户端系统可以通过NFS协议访问这些挂载的文件系统。NFS提供了透明的访问,用户可以像操作本地文件一样操作远程文件。在CentOS 7系统中,需要安装nfs-utils,rpcbind软件包来提供NFS共享服务。手动加载NFS共享服务时,应该先启动rpcbind,再启动NFS。前者用于NFS共享发布和访问,后者用于RPC支持。4. 启动NFS服务。

2024-02-19 15:54:37 862 1

原创 使用Nginx搭建CloudStack本地镜像站

具体来说,这个配置项允许管理员指定一组内部网站的URL地址,这些网站被认为是可信任的,CloudStack可以从这些网站下载虚拟机镜像和其他存储数据。这有助于确保安全存储只能从已知且受信任的来源获取数据,以提高系统的安全性。secstorage.allowd.internel.sites是一个配置选项,用于指定哪些内部网站(Internal Sites)是允许的用于安全存储(Secondary Storage)的。autoindex_exact_size on:这个参数会在目录列表中显示文件的精确大小。

2024-02-13 00:58:01 483 1

原创 重要性采样

估计一个不同分布的期望Ex∼p​fx)]​∫x​pxfxdx∫x​qxqxpx​fxdxEx∼q​qxpx​fx​将每个实例的权重重新分配为βxqxpx​。

2023-12-14 17:45:28 71 1

原创 模型无关控制方法

一些能够被建模成的问题示例电梯,平行泊车,船舶操纵,生物反应器,直升机,飞机物流,机器人行走,围棋对弈模型无关的控制能够解决上述问题。

2023-12-14 17:31:42 101 1

原创 蒙特卡洛价值预测

直接从经验片段进行学习蒙特卡洛是模型无关的:未知马尔可夫决策过程的状态转移/奖励蒙特卡洛从完整的片段中进行学习:没有使用bootstrapping的方法蒙特卡洛采用最简单的思想:值(value)= 平均累计奖励(mean return)只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中即,所有的片段都有终止状态。

2023-12-14 09:49:08 96 1

原创 蒙特卡洛方法

在现实问题中,通常没有明确地给出状态转移Psa​s′和奖励函数R例如,我们仅能观察到部分片段(episodes)s01​a01​Rs0​1​s11​a11​Rs1​1​s21​a21​Rs2​1​s31​⋯sT1​s02​a02​Rs0​2​s12​a12​Rs1​2​s22​a22​Rs2​2​s3。

2023-12-13 23:05:43 60 1

原创 基于模型的强化学习

MDP由一个五元组构成SAPsaγRSAPsa​γR,其中状态转移PPP和奖励函数RRR构成了动态系统动态系统和策略交互的占用度量ρπsaEa∼πss′∼psa∑t0TγtpstsataρπsaEa∼πss′∼psa​t0∑T​γtpst​sat​a一个白盒环境给定的情况下,可用动态规划的方法求解最优策略(值迭代和策略迭代)如果环境是黑盒。

2023-12-13 22:49:40 145 1

原创 基于动态规划的强化学习

ERs0​γRs1​γ2Rs2​⋯γ∈01是未来奖励的折扣因子,使得和未来奖励相比起来智能体更重视即时奖励以金融为例,今天的$1比明天的$1更有价值给定一个特定的策略πsS→A即,在状态s下采取动作aπs给定策略π定义VπsERs0​γRs1​γ2Rs2​⋯∣s0​sπ即,π。

2023-12-13 19:56:50 134 1

原创 马尔可夫决策过程

是一个或多个事件、随机系统或者随机现象随时间发生演变的过程PSt1​∣S1​St​。

2023-12-13 19:53:26 663 1

原创 探索与利用

动手学强化学习

2023-12-13 15:05:40 76 1

原创 强化学习简介

动手学强化学习

2023-12-13 14:48:50 211 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除