cjhcjq122108-CSDN博客

原创中断向量表修改（自定义时钟中断）

中断向量表修改（自定义时钟中断）

2024-04-10 21:36:30 376 1

原创手搓MBR实现ubuntu,win7双启动

手搓MBR实现双系统启动（源码+知识点讲解）

2024-04-10 21:29:40 774 1

原创决策树使用全流程概述（sklearn)

首先我们导入sklearn库中内置数据库，并将参数as_frame设置为True。这样jupyter中输出的格式好看点。返回值为字典，我们可以查看一下数据。

2024-03-20 19:30:28 522 1

原创 QEMU模拟器下完成win7与ubuntu双系统启动的详细过程与原理解释

MBR，主动引导记录，可以帮助引导操作系统启动。是boot_loader的一种。通常处于硬盘第一扇区。MBR中主要分为三个部分：引导加载程序，硬盘分区表，结束标志。其中引导加载程序是引导操作系统启动，硬盘分区表则存储硬盘上所有分区的起始和终止位置，以及其他与分区相关的信息。结束标志则是标志MBR的结束。

2024-03-13 09:30:50 1135 2

与DP算法对比DP算法要求我们了解完整的环境知识。它更像是解决一个确定的有最优解的复杂问题。这类问题我们完全可以通过贝尔曼方程解出最优解，但是为了降低复杂度，我们选择了DP算法。这不像是一个智能体agent应该做的事，反倒像是一个计算方法。而与DP算法不同，MC方法不需要我们知道状态转移矩阵PPP，对于环境的了解和分析主要由agent通过学习获得。这样看来，MC方法更像是智能体在学习一样。基本思想通过大量采样来计算vπsv_\pi(s)vπs和qπsaq_\pi(s,a)q。

2023-12-14 16:53:33 1914 1

原创强化学习——动态规划算法

上次我们讲到了动态规划可以用来计算vπsqπsa，用来评估一个策略的好坏。另外，该算法也包括了优化策略这一目标。动态规划是使用状态价值函数来结构化地搜索最优策略（有些的算法是使用策略价值函数来搜索的）。以下的文章没有详细的数学证明过程。

2023-11-28 18:11:21 900

原创强化学习——MDP框架的搭建

简单的说：下一个所处的状态只取决于当前的状态用数学语言描述：P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]P[S_{t+1}|S_{t}] = P[S_{t+1}|S_t,S_{t-1},S_{t-2}......S_1]P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]好处就是：只要当前状态包含的信息足够多，我们就可以只使用当前的信息来推断出下一个状态。首先我们仅引入S,PS,PS,P，我们当前的策略可以理解为：随着PPP矩阵记录的

2023-11-28 18:09:18 1009