ESP定律

dlytgaowenESP定律

一、ESP定律


EQ:何为ESP定律;为什么我们在脱壳的时候在程序载入OD后F8单步对寄存器ESP值地址下硬件断点后会来到壳跳向程序OEP的地方?


AS:ESP定律就是“堆栈平衡”原理也就是壳入栈和出栈的地址为对应
我们来看下面的图:

―――――――――――――――――――――――――――――――――――――――
程序载入OD时CPU主线程:
ESP定律  - dlytgaowen -              汇编


寄存器:
ESP定律  - dlytgaowen -              汇编


堆 栈:
ESP定律  - dlytgaowen -              汇编


当我们F8单步后的图:


CPU主线程:
ESP定律  - dlytgaowen -              汇编


寄存器:
ESP定律  - dlytgaowen -              汇编


此时的堆栈和寄存器的对比图:
ESP定律  - dlytgaowen -              汇编


―――――――――――――――――――――――――――――――――――――

通过此图大家可以看出壳在压栈也就是把寄存器的值全部压入堆栈,那么即然是“堆栈平衡”原理,在壳的出口也就是将要到达OEP时的值也应该是一样的,再看下图是程序将要到达OEP图:
ESP定律  - dlytgaowen -              汇编


和加壳程序载入OD的堆栈图比较一下大家就明白了:
ESP定律  - dlytgaowen -              汇编


除了EIP不同以外,eax保存当前OEP值,其他都样。 为什么会这样呢?我们来看看 A:PUSHAD


ESP定律  - dlytgaowen -              汇编


B:CALL


ESP定律  - dlytgaowen -              汇编


C:popad


ESP定律  - dlytgaowen -              汇编



D:JNZ


ESP定律  - dlytgaowen -              汇编


――――――――――――――――――――――――――――――――――――――
0040D000
A>  60               pushad  //注意这里ESP=0012FFC4(壳入口)
0040D001     E8
00000000      call
ASPACK.0040D006  //ESP=0012FFA4

PUSHAD就是把所有寄存器压栈!我们在到壳的最后看看:

0040D558 
   61               popad  //ESP=0012FFA4(壳出栈口)
0040D559     75 08          
jnz short ASPACK.0040D563
//注意这里ESP=0012FFC4
―――――――――――――――――――――――――――――――――――――――
现在大家可以看出什么来了吧……两两对应。
―――――――――――――――――――――――――――――――――――――――

也就是说当我们对ESP的0012FFA4下硬件访问断点之后。当程序要通过堆栈访问这些值
,从而恢复原来寄存器的值,准备跳向OEP的时候,OD帮助我们中断下来。
我们可以把壳假设为一个子程序,当壳把代码解压前和解压后,他必须要做的是遵循堆栈平衡的原理。那怕就是有些壳偷代码抽取字节表面是不遵循堆栈平衡的原理实际上还是遵循的,也有的不把值放在ESP中而是放在了其它的地方,以防止ESP定律脱壳。

因为大家对ESP理解各有异同,但是,大同小异!一般理解可以为: 1、在命令行下断hr
esp-4(此时的ESP就是OD载入后当前显示的值)
如果在载入OD后的pushad时的(ESP值-4)值,此例为(0012FFC4-4=0012FFC0)下断运行断下的地方刚好就是POPAD出栈。
2、hr
ESP(关键标志下一行代码所指示的ESP值(F8单步通过))
3.是不是只能下断12FFA4的访问断点?
当然不是,那只是ESP定律的一个体现,我们运用的是ESP定律的原理,而不应该是他的具体数值,不能说12FFA4,或者12FFC0就是ESP定律,他们只是ESP定律的一个应用罢了!
―――――――――――――――――――――――――――――――――――――――

转载于:https://www.cnblogs.com/wanghj-dz/archive/2011/06/01/2066141.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Tensorflow、OpenAI搭建的强化学习框架,训练机器自动操盘 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值