- 博客(14)
- 收藏
- 关注
原创 决策树使用全流程概述(sklearn)
首先我们导入sklearn库中内置数据库,并将参数as_frame设置为True。这样jupyter中输出的格式好看点。返回值为字典,我们可以查看一下数据。
2024-03-20 19:30:28
522
1
原创 QEMU模拟器下完成win7与ubuntu双系统启动的详细过程与原理解释
MBR,主动引导记录,可以帮助引导操作系统启动。是boot_loader的一种。通常处于硬盘第一扇区。MBR中主要分为三个部分:引导加载程序,硬盘分区表,结束标志。其中引导加载程序是引导操作系统启动,硬盘分区表则存储硬盘上所有分区的起始和终止位置,以及其他与分区相关的信息。结束标志则是标志MBR的结束。
2024-03-13 09:30:50
1135
2
原创 强化学习——蒙特卡洛算法
与DP算法对比DP算法要求我们了解完整的环境知识。它更像是解决一个确定的有最优解的复杂问题。这类问题我们完全可以通过贝尔曼方程解出最优解,但是为了降低复杂度,我们选择了DP算法。这不像是一个智能体agent应该做的事,反倒像是一个计算方法。而与DP算法不同,MC方法不需要我们知道状态转移矩阵PPP,对于环境的了解和分析主要由agent通过学习获得。这样看来,MC方法更像是智能体在学习一样。基本思想通过大量采样来计算vπsv_\pi(s)vπs和qπsaq_\pi(s,a)q。
2023-12-14 16:53:33
1914
1
原创 强化学习——动态规划算法
上次我们讲到了动态规划可以用来计算vπsqπsa,用来评估一个策略的好坏。另外,该算法也包括了优化策略这一目标。动态规划是使用状态价值函数来结构化地搜索最优策略(有些的算法是使用策略价值函数来搜索的)。以下的文章没有详细的数学证明过程。
2023-11-28 18:11:21
900
原创 强化学习——MDP框架的搭建
简单的说:下一个所处的状态只取决于当前的状态用数学语言描述:P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]P[S_{t+1}|S_{t}] = P[S_{t+1}|S_t,S_{t-1},S_{t-2}......S_1]P[St+1∣St]=P[St+1∣St,St−1,St−2......S1]好处就是:只要当前状态包含的信息足够多,我们就可以只使用当前的信息来推断出下一个状态。首先我们仅引入S,PS,PS,P,我们当前的策略可以理解为:随着PPP矩阵记录的
2023-11-28 18:09:18
1009
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人