写在前面
由于比赛的方向分配,我开始学习逆向,学习逆向有一些基础知识需要补充,因此这周的学习内容是汇编语言。学习使用的教材是王爽的《汇编语言》第三版
逆向学习路线
一、语言
学习逆向,需要掌握四门语言,分别是C、C++、Python和汇编。C和C++在开发杀毒引擎中能起到很大的作用,而且使用IDA pro翻译出的伪代码是C语言格式的。C和C++也是开发shellcode最高效的语言,也可以用来写驱动代码。因此,C和C++是学习逆向的两门重要语言。Python可以辅助我们开发一些分析工具,可以快速降低重复劳动的成本。汇编语言是在逆向分析过程中不可避免的。因此,这四门语言是学习逆向必须掌握的。
二、Windows编程
在逆向学习、二进制安全学习中,我们要掌握系统编程,学习如何写安全工具、Windows下的API编程、Windows的文件结构,即PE(Protable Executable)这一部分可以帮助到我们日后分析病毒以及漏洞分析。
三、逆向
在学习好基础知识后,我们可以开始学逆向以及恶意代码分析、漏洞分析。
汇编语言
第一章 基础知识
语言特性
汇编语言是直接作用在硬件上的编程语言,对硬件系统有一定了解后,才能有效地应用汇编语言编程。汇编的研究重点应放在如何利用硬件系统的编程结构和指令集有效灵活的控制系统进行工作。
1.机器语言
机器语言是机器指令的集合,机器指令就是一台机器可以正确执行的命令,形式为二进制代码。机器语言出现错误,查错成本高,可读性差,因此需要汇编语言方便编程。
2.汇编语言
汇编语言的主题是汇编指令
汇编指令是机器指令便于记忆的书写格式
汇编指令是机器指令的助记符
汇编语言的写法与人类语言接近,便于阅读和记忆
寄存器:CPU中可以存储数据的器件,一个CPU中有多个寄存器
工作方式:汇编指令通过编译器转换成机器指令,传给机器,并执行
3.汇编语言的组成
汇编语言由一下三类组成:
1.汇编指令(机器码的助记符)
2.伪指令(由编译器执行)
3.其他符号(由编译器识别)
4.存储器
CPU是计算机的核心部件,它控制整个计算机的运作并进行运算,要想让一个CPU工作,就必须向它提供指令和数据
指令和数据在存储器中存放,也就是内存
磁盘上的数据或程序,如果不读到内存中,就无法被CPU使用
5.指令和数据
在内存或磁盘中,指令和数据都是二进制信息
6.存储单元
存储器被划分为若干个存储单元,每个存储单元从0开始顺序编号,如有128哥存储单元,编号则为0~127
存储单元的容量单位有bit、B、KB、MB、GB、TB等
7.CPU对存储器的读写
CPU对数据进行读写,则要进行三类信息的交互:
1.存储单元的地址(类似C语言中的指针)(地址信息)
2.器件的选择,读或写命令(控制信息)
3.读或写的数据(数据信息)
CPU通过总线向其他内存传输数据,从逻辑上总线分为:
地址总线
控制总线
数据总线
地址总线
CPU是通过地址总线来指定存储单元
地址总线上能传送多少个不同的信息,CPU就可以对多少个存储单元进行寻址
数据总线
CPU与内存或其他器件之间的数据传输是通过数据总线来进行的
数据总线的宽度决定了CPU和外界的数据传送速度
控制总线
CPU对外部器件的控制是通过控制总线来进行的。这里的控制总线是总称,是一些不同控制线的集合。
有多少根控制总线,就意味着CPU提供了对外部器件的多少种控制
所以控制总线的宽度决定了CPU对外部器件的控制能力
前面所讲的内存读或写命令是由几根控制线综合发出的:
其中有一根名为读信号输出控制线负责由CPU向外传送读信号,CPU向该控制线上输出低电平表示将要读取数据
有一根名为写信号输出控制线负责由CPU向外传送写信号
8.主板
主板上有核心器件和一些主要器件,这些器件通过总线相连。器件包括CPU、存储器、芯片组、内存、接口卡等
9.接口卡
CPU通过总线连接接口卡,通过控制接口卡,实现对外设的控制
10.各类存储器芯片
从读写属性,分为随机存储器RAM和只读存储器ROM。
RAM可读可写,但必须带电存储,关机后存储的内容丢失
ROM只读不可写,关机后内容不丢失
从功能和连接上分为以下几类
随机存储器:
用于存放供CPU使用的绝大部分程序和数据,主随机存储器一般由两个位置上的RAM组成,装在主板上RAM和插在扩展插槽上的RAM。
装有BIOS的ROM
BIOS是由主板和各类接口卡(如显卡、网卡等)厂商提供的软件系统,可以通过它利用该硬件设备进行最基本的输入输出。在主板和某些接口卡上插有存储相应BIOS的ROM例如,主板上的ROM 中 存 储 着 主 板 的 BIOS(通常称为系统BIOS);显卡上的ROM中存储着显卡的BIOS;如果网卡上装有ROM,那其中就可以存储网卡的BIOS
接口卡上的RAM
某些接口卡需要对大批量输入、输出数据进行暂时存储,在其上装有RAM。最典型的是显示卡上的RAM,一般称为显存。显示卡随时将显存中的数据向显示器上输出。换句话说,我们将需要显示的内容写入显存,就会出现在显示器上。
11.内存地址空间
所有的物理存储器被看作一个由若干存储单元组成的逻辑存储器,每个物理存储器在这个逻辑存储器中占有一个地址段,即一段地址空间。CPU在这段地址空间中读写数据,实际上就是在相对应的物理存储器中读写数据。
这里可以和C语言中的指针相结合理解
小结
(1)汇编指令是机器指令的助记符,同机器指令一一对应
(2)每一种CPU都有自己的汇编指令集
(3)CPU可以直接使用的信息在存储器中存放
(4)在存储器中指令和数据没有任何区别,都是二进制信息
(5)存储单元从0开始顺序编号
(6)每一个CPU芯片都有许多管脚,这些管脚和总线相连。也可以说,这些管脚引出总线。一个CPU可以引出三种总线的宽度标志了CPU不同方便的性能:
地址总线的宽度决定了寻址能力
数据总线的宽度决定了CPU与其他器件进行数据传送时的一次数据传送量
控制总线宽度决定了CPU对系统中其他器件的控制能力