- 博客(99)
- 收藏
- 关注
原创 装入与链接;写时拷贝技术;内存管理的范畴;内存分配算法;基本分页存储管理;逻辑地址与物理地址转换;快表;二级页表;段页式存储管理;虚拟内存;请求分页存储管理;缺页中断;页面置换算法;CLOCK算法
装入与链接;写时拷贝技术;内存管理的范畴;内存分配算法;基本分页存储管理;逻辑地址与物理地址转换;快表;二级页表;段页式存储管理;虚拟内存;请求分页存储管理;缺页中断;页面置换算法;CLOCK算法
2023-09-20 11:06:30
137
原创 王道考研:作业调度、内存调度、进程调度;进程的挂起状态;进程调度的时机、闲逛进程;调度算法的评价指标;不同调度算法性能的对比分析
作业调度、内存调度、进程调度;进程的挂起状态;进程调度的时机、闲逛进程;调度算法的评价指标;不同调度算法性能的对比分析
2023-09-10 13:04:09
301
原创 我的创作纪念日:进程的概念、组成、特征;进程的基本状态;进程切换、原子操作、原语;进程间通信的方式;共享缓冲区、消息队列的本质、管道通信
进程的概念、组成、特征;进程的基本状态;进程切换、原子操作、原语;进程间通信的方式;共享缓冲区、消息队列的本质、管道通信
2023-08-29 22:46:26
289
原创 王道考研:特权指令、用户态与核心态、内核程序与应用程序;中断和异常;系统调用;宏内核与微内核;电脑开机全过程;虚拟机原理
特权指令、用户态与核心态、内核程序与应用程序;中断和异常;系统调用;宏内核与微内核;电脑开机全过程;虚拟机原理
2023-08-25 10:38:22
2434
原创 C标准库——字符串函数反汇编分析
本文介绍了几种常见的字符串处理函数:strlen;strcpy;strcmp等函数的反汇编逆向分析,可以帮助你在逆向过程中快速识别相关函数!
2023-06-09 11:03:26
823
原创 do..while、while、for循环反汇编剖析
本文介绍了常见的3种循环语句:do..while;while;for的反汇编逆向过程,并从底层探讨了for循环当中的i++和++i效率的差别。
2023-06-09 09:19:56
1133
原创 switch语句详细逆向分析
本文详细逆向剖析了switch语句在各种情况下的形态。说明了为何switch效率要高于if..else,同时论述了switch当中的大表小表产生的条件。
2023-06-07 23:28:16
942
原创 TLS反调试
在多线程编程中,如果在线程函数内部直接定义一个私有变量,那么这个变量将会是在栈上分配的,每次调用线程函数时都会创建一个新的变量,而在线程函数返回后,这个变量将被销毁,这样就无法在多次调用线程函数时保持这个变量的状态。因此,线程局部存储提供了一种在线程之间共享变量的方法,同时又保证了每个线程都有自己的私有变量,可以在多次调用线程函数时保持变量的状态。线程局部存储通过为每个线程创建一个唯一的指针来实现。
2023-05-14 18:06:04
894
原创 深度强化学习——蒙特卡洛算法(6)
本章的内容作为补充插曲,讲解了一些蒙特卡洛近似的实例,大家可以选看,不过还是建议把最后一个使用蒙特卡洛近似求期望稍微看一下
2023-04-24 13:01:47
1116
原创 深度强化学习——actor-critic算法(4)
θ,w)来近似,θ是策略网络的参数,w是价值网络的参数,训练的时候要更新两个神经网络的参数θ和w,但是更新θ和w的目标是不同的,更新策略网络Π的参数θ,是为了让V函数的值增加,V函数是对策略Π和状态s的评价,如果固定s,V越大则说明策略Π越好,所以很显然我们需要更新参数θ使得V的平均值(期望)增加,学习策略网络Π的时候,监督是由价值网络Q提供的,怎么理解呢?裁判是靠什么改进自己的呢?价值网络q的作用是辅助训练策略网络Π,裁判打的分数就相当于监督学习中的标签,运动员就是靠裁判打的分数来改进自己的动作。
2023-04-18 21:52:49
2137
原创 深度强化学习——策略学习(3)
我们让agent玩游戏,每一步都会观测到一个不同的状态s,这个s就相当于是从状态的概率分布当中随机抽样出来的,观测到状态s,把V(s,θ),关于θ求导,得到一个梯度,然后用梯度上升来更新θ,这里的β是学习率,其实这就相当于是随机梯度上升,我们算的不是梯度,真正的梯度是目标函数J(θ),关于θ的导数,这里我们算的是v关于θ的导θ数,其实就是一个随机梯度,随机性来自于S,为什么要用梯度上升呢?,蒙特卡洛就是抽一个或者几个随机样本,用随机样本来近似期望,更新模型参数θ的时候,用g()来作为近似的梯度就可以了。
2023-04-17 13:26:35
800
原创 深度强化学习——价值学习(2)
300分钟是真实的观测,新的估计900分钟就是TD target,虽然这900分钟也是估计,但是他包含了一部分的真实观测,当我越接近Atlanta,TD target就越准确,越接近真实值,这样我到了DC,我算出TD target y=900,我就可以更新模型参数了,我假装y=900就是真实观测,把y作为target,损失函数就是1/2(1000-900)^2,这里最初的估计Q(w)和TD target y的差称为TD error,这里的TD error=q-y=1000-900=100。
2023-04-16 20:57:31
262
原创 深度强化学习——基本概念(1)
agent的目标就是让未来得到的奖励总和越大越好,为此我们使用Ut来表示未来得到的奖励总和,如果知道Ut的话,我就知道这局游戏是快要赢了还是快要输了?》逗你玩的,Ut是个随机变量,在t时刻你并不知道Ut是什么,那么我应该如何评估当前的形势呢?》我们可以对Ut求期望,把里面的随机性都使用积分给积掉,得到的就是个实数real num,记作QΠ(st,at),这个期望是怎么求的呢?
2023-04-15 12:53:48
1342
4
原创 一文彻底搞懂Python里数组、列表、元组、字典、集合的区别
Python的集合(set)和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算.Dictionary 的值可以是任意数据类型,包括字符串、整数、对象,甚至其它的 dictionary。在单个 dictionary 里,dictionary 的值并不需要全都是同一数据类型,可以根据需要混用和匹配。
2023-04-13 23:00:17
7767
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅