iOS汇编教程(1)

最新推荐文章于 2024-08-08 15:25:52 发布

2401_84097393

最新推荐文章于 2024-08-08 15:25:52 发布

阅读量922

点赞数 18

分类专栏：程序员文章标签： ios 汇编 cocoa

本文链接：https://blog.csdn.net/2401_84097393/article/details/138459930

版权

程序员专栏收录该内容

264 篇文章 1 订阅

订阅专栏

注意到编译器通常在函数名的前面添加一个下划线，这也是一个约定。其他的所有以L.开头的叫本地标签，这些标签只能用于函数内部。在这个简单的例子里，没有任何一个本地标签真正被使用，但编译器仍然生成了，因为这个代码并没有做任何编译优化。

注意是以@字符开头的。在汇编代码后边注释上对应的main.c文件行数对我们看懂汇编代码非常有用。

因此，忽略掉注释和标签，重要的代码如下：

_addFunction: @ 1: sub sp, #12 @ 2: str r0, [sp, #8] str r1, [sp, #4] @ 3: ldr r0, [sp, #8] ldr r1, [sp, #4] @ 4: add r0, r1 @ 5: str r0, [sp] ldr r0, [sp] @ 6: add sp, #12 @ 7: bx lr

首先，分配栈所需的所有临时存储空间。栈是一大块函数随时想使用的内存。ARM中的栈内存是高地址向低地址分布的，意味着你必须从栈指针开始减。在这里，分配了12个字节。
r0和r1存放传给函数的参数。如果入参有四个参数，那么r2和r3就会分别存放第三和第四个参数。如果函数超过四个参数，或者一些例如结构体的参数超过了32位比特，那么参数将会通过栈来传递。这里，两个参数被存入栈中。这是通过存储寄存指令（str）实现的。第一个参数是要存储的寄存器，第二个是存储的位置。方括号代表里面值是内存地址。这个方括号指令允许你为一个值指定偏移量，因此[sp, #8]的意思『在栈指针的地址上加上8字节偏移量』。同样地，str r0, [sp, #8]意味着『存储r0寄存器的值到栈指针地址加上8字节内存的位置』。
刚被保存到栈的值又被读取到相同的寄存器内。和str指令相反的，ldr指令是从一个内存中加载内容到寄存器。两者语法非常相似。因此，ldr r0, [sp, #8]意思是『读取出在栈指针地址加上8字节内存的位置的内容，并将内容赋值给寄存器r0』。如果你好奇为何r0和r1刚被存储又被加载出来，对，它是很奇怪，这两行明明就是多余的嘛！如果编译器允许基本的编译优化，那么这多余的就会被消除。
这是该函数最重要的指令了：做加法。意思是将r0和r1中的内容相加，并将相加的值赋值给r0。 add指令入参可以是两个或者三个，如果是三个，那第一个参数就是存储后两个参数相加的值的寄存器。所以，这行指令也可以写成：add r0, r0, r1。
再一次，编译器生成了一些多余的代码：将相加的结果存储起来，又读取到相同的位置。
函数即将终止，因此栈指针放回原来的地方。函数开始时从sp（栈指针）上减去了12个字节而得到12个字节内存使用。现在它把12个字节还回去。函数必须保证栈指针操作平衡，否则栈指针可能漂移，最终可能超出了已分配的内存。你应该不希望那样…
最后，间接分支调度指令bx被执行，用于返回到调用函数（调用本函数的函数）。lr(link register)存放了调用函数执行完当前函数的下一条指令。注意到，在addFunction执行返回后，r0保存了相加的值。这是调用约定的另一部分。函数的返回值总是r0，除非一个寄存器不够存储，这种情况下才会使用r1-r3。

其实并没有那么难，对不？想知道更多关于指令的信息，可以看看这个文档，或者看其他的中文.

你发现了这个函数很多汇编代码是多余的。因为一开始，我们的编译器就是Debug（调试）模式，没有任何编译器优化的。如果你把编译优化打开，你会得到一个非常精简的代码。

改变 Show Assembly Output For 到选择器到存档（Xcode7不一样，区别是如果你想获取精简的汇编，需要Edit Scheme成Release模式，另外切换后记得clean下工程）。搜索_addFunction:，你可以看到如下代码：

_addFunction: add r0, r1 bx lr

这非常简洁! 可以看到仅仅两个指令就写完了这个函数。你可能没想到仅用两个指令就完成了~ 当然，你平时写的函数一般更长也更有趣点~

现在你已经有一个以返回到调用者分支为结束的函数。那么作为一个相互关系的另一个函数，调用该函数的调用者呢？

调用函数

首先，你需要给addFunction函数添加一个让编译器不做优化的属性。你已经发现如果我们开启优化，那么代码会移除掉不必要的指令，甚至连函数调用都会被移除，或者可能直接将函数作为内联函数使用。

例如，编译器可能直接用add指令代替函数调用。实际上，编译器是非常强大智能的，它可能直接帮你计算好了相加后的值，连add指令都不需要生成。

这个教程，我们不希望编译器做优化或者将函数内联。回到main.m文件，修改函数成如下：

attribute((noinline))

int addFunction(int a, int b) {

int c = a + b;

return c;

}

继续在下方添加另一个函数如下：

void fooFunction() { int add = addFunction(12, 34); printf(“add = %i”, add); }

fooFunction函数简单地用addFunction让12和34相加并且打印出值。这里使用的是C语言的printf而不是Objective-C的NSLog函数的原因是后者的汇编结果更加复杂。

再一次生成汇编代码，搜索_fooFunction，你可以看到如下代码：

fooFunction: @ 1: push {r7, lr} @ 2: movs r0, #12 movs r1, #34 @ 3: mov r7, sp @ 4: bl addFunction @ 5: mov r1, r0 @ 6: movw r0, :lower16:(L.str-(LPC1_0+4)) movt r0, :upper16:(L.str-(LPC1_0+4)) LPC1_0: add r0, pc @ 7: blx _printf @ 8: pop {r7, pc}

这里引入了一些教程之前没有介绍过的指令，但不用担心，他们并不复杂，我们来看：

这个指令跟我们之前的add sp, #12指令做的事情差不多。这里，r7和lr被推入到栈，意味着sp（栈指针）减掉了8字节（栈指针始终指向栈顶，所以在push的时候会变小），因为r7和lr都是4字节。注意到栈指针变小了而且通过一个指令存储了两个值。r7的值需要存储起来的原始是之后函数执行时它会被使用到并重写。lr被存储的原因在函数最后将会知晓；
这两个指令（mov）是Move组的成员之一。有时候你会看到movs，或者movw，或者其他，但他们的作用都是用一个值来填充寄存器。你可以将一个寄存器的值移动到另一个寄存器，因此mov r0, r1会将r1寄存器内容填充到r0，r1的值不变。在这两行代码中，r0和r1是用函数中定义的两个常量赋值的。注意到他们是被加载到r0和r1中，刚好是addFunction的入参。
在函数调用边界时，栈指针应该被保存起来，因此作为可存储本地变量的寄存器之一r7被使用了。你会发现剩余的函数代码中并没有使用栈指针或者r7，因此这是个小小的多余处理。有时候开启了优化也优化不掉。
指令bl意味着函数调用。记得函数的入参已经放入相关的寄存器r0及r1了吧。这个指令执行的代码我们称之为分支。因为是指令bl而不是指令b，指令bl全称是『branch with link』，意味着在执行分支代码之前，需要将lr（链接寄存器）置为当前函数的下一个指令。回想下，当addFunction方法返回时，lr就是指向下一个要执行的指令。
这是将两个数相加的addFunction分支返回的节点。记得之前说明过函数的返回值是存放在r0的吧~ 这个值会作为printf函数的第二个参数，因此mov指令用于将r0的内容赋值给r1。
printf函数的第一个参数是一个字符串。这三条指令加载指向所需的字符串的开始地址的指针到r0寄存器。字符串存储在我们称之为二机制『数据段』的位置。但只有最终二进制被链接时才能知道该数据的具体位置。字符串可以在main.m生成的目标文件例找到。如果你在生成的汇编代码内搜索『L.str』，便可找到它。前两个指令加载常量的地址，并减去标签的地址（LPC1_0加上4字节）。看到第三个指令这么做的目的就很明显了。r0加上pc（程序计数器），这样无论L.str在二进制文件的什么位置都能够准确的存放字符串的位置。下面的图展示了内存分布。L_.str - (LPC1_0 + 4)差值可以随便变动，但是加载r0的代码却不用变化。

这条指令是调用printf函数。这里的blx跟bl指令有点不同，x代表交换，当有需要时，处理器可以改变当前运行模式。处理器运行模式有点超越了本教程的范围，ARM处理器有两种运行模式：ARM和Thumb。Thumb指令集是16位宽，而ARM是32位。Thumb指令比ARM少，使用Thumb意味着更少的代码大小及更好的CPU缓存。通常使用有限的Thumb指令集可以让你从更小的包大小中获益。想了解更多Thumb的知识请戳这里
最后一条指令是推出第一条指令推入的值。这次列表中的寄存器的值是用栈中的值填充的，且栈指针增加了。回想下，r7和lr之前是被推入到栈中，那么此时为何是推出来的值存入到了r7和pc中，而不是r7和lr呢？好的，记得lr是存储当前函数执行完成后的下一个指令地址吧。当你把lr推出栈赋值给pc后，执行将会从本函数调用的地方继续执行。这通常是一个函数返回的实现方式，而不是像addFunction那样切分支的方式。

以上是对ARM指令集大致的介绍。还有很多其他指令集，但这些是开始理解指令集最重要的的指令。让我们来用伪代码快速回忆一下代码做的事情：

mov r0, r1 => r0 = r1 mov r0, #10 => r0 = 10 ldr r0, [sp] => r0 = *sp str r0, [sp] => *sp = r0 add r0, r1, r2 => r0 = r1 + r2 add r0, r1 => r0 = r0 + r1 push {r0, r1, r2} => r0, r1 r2 入栈 pop {r0, r1, r2} => 栈顶出三个, 并赋值给r0, r1 and r2. b _label => pc = _label bl _label => lr = pc + 4; pc = _label

哇哦~ 现在你可以读懂一些ARM汇编代码了~

Objective-C 汇编

至此，你看到的函数都是C语言的。Objective-C代码要复杂点，不过让我们来检验一下。在ViewController.m代码中添加以下代码实现:

(int)addValue:(int)a toValue:(int)b {

int c = a + b;

return c;

}

让我们再次重复之前精简的汇编方式，搜索addValue:toValue:函数，可以看到：

“-[ViewController addValue:toValue:]”:

adds r0, r3, r2

bx lr

首先你会注意到标签名字。这次便签名字包含了类名及全部的方法名。

如果你和之前的addFunction汇编代码相比较，你会发现两个入参存储在了r2及r3而不是r0和r1。为什么呢？

OK，因为Objective-C函数在C函数的基础上多传了两个隐式的参数。addValue:toValue:方法语法上和以下方法相同：

int ViewController_addValue_toValue(id self, SEL _cmd, int a, int b) {

int c = a + b;

return c;

}

这就是为什么a和b变量分别存储在r2和r3内了。现在你大概知道了前两个隐式参数的含义了，你总是可以使用self这个变量。

但是，_cmd可能之前你没有见过。像self变量一样，在Objective-C代码中它是可获取的，而且代表着当前函数的selector。你一般从不会用到它，这就是你为何没听过的原因了。

为了看清Objective-C函数是如何被调用的，我们在ViewController中添加如下代码：

(void)foo {

int add = [self addValue:12 toValue:34];

NSLog(@“add = %i”, add);

}

生成代码并找到该方法，你可以看到类似下面的代码(Xcode7生成的有点不一样了)：

“-[ViewController foo]”: @ 1: push {r7, lr} @ 2: movw r1, :lower16:(L_OBJC_SELECTOR_REFERENCES_-(LPC1_0+4)) movt r1, :upper16:(L_OBJC_SELECTOR_REFERENCES_-(LPC1_0+4)) LPC1_0: add r1, pc @ 3: ldr r1, [r1] @ 4: movs r2, #12 movs r3, #34 @ 5: mov r7, sp @ 6: blx objc_msgSend @ 7: mov r1, r0 @ 8: movw r0, :lower16:(L__unnamed_cfstring-(LPC1_1+4)) movt r0, :upper16:(L__unnamed_cfstring_-(LPC1_1+4)) LPC1_1: add r0, pc @ 9: blx _NSLog @ 10: pop {r7, pc}

再次，和之前我们看到的C语言函数差不多。分解它：

将r7及lr入栈；
使用同样加载字符串的方式，加载在名为L_OBJC_SELECTOR_REFERENCES_的标签处的字符串指针到r1。像便签名字一样，它是一个selector的引用。其实selector就是存储在数据段的字符串。
如果你在汇编代码里查找L_OBJC_SELECTOR_REFERENCES_，你会发现：L_OBJC_SELECTOR_REFERENCES_:.long L_OBJC_METH_VAR_NAME_，这说明r1指向的是L_OBJC_METH_VAR_NAME_标签的地址。如果你继续查看该便签，你将找到addValue:toValue:字符串。指令ldr r1, [r1]表示加载存储在r1指针内的内容并赋值给r1。用伪代码是这么表述的r1 = *r1。再仔细想想，r1其实已经指向addValue:toValue:字符串地址。
加载常量到r2和r3。
保存栈指针。
以保存lr指针且可更换模式的方式切分支到objc_msgSend。这个方式是Objective-C语言的核心。它调用它的入参selector的实现。参数最终和传给这个方法的参数一样，r0是self，r1是_cmd，r2和r3是剩下的参数。这就是为何selector要赋值给r1，剩余参数赋值给r2和r3，r0是隐式加载的，因为self变量已经存在了。
addValue:toValue:方法的返回值还是r0。这个指令将r0的值赋值给r1，因为r0之后要作为C函数NSLog的参数。
加载NSLog需要的字符串给r0，像printf函数一样。
以保存lr指针且可更换模式的方式切分支到NSLog。
两个值被推出来，一个赋值给r7一个给pc。这个指令将使函数返回。

如你所见，当生成汇编代码时，C函数和Objective-C没有多大差别。两者的主要差别在于，Objective-C隐式的传递了两个参数，且selector是在保存在数据段内的。

Objective-C函数执行过程

你已经大致看到了objc_msgSend函数，你可能也在Crash日志内见过它。这个函数是Objective-C运行时的核心。运行时是胶合Objective-C应用的代码，包括所有的内存管理方法及类处理。

每一次Objective-C函数调用，都需要objc_msgSendC函数来派发消息。它会去对应的对象方法列表内搜索方法的实现。objc_msgSend函数签名如下：

id objc_msgSend(id self, SEL _cmd, …)

在函数执行当中的第一个参数是self对象。因此当我们写诸如self.someProperty代码时，self就是这么来的。

第二个参数是少有人知的隐藏参数。你可以试试，在Objective-C方法里写这样一句代码：NSLog(@"%@", NSStringFromSelector(_cmd));，你可以看到当前的方法被打印出来。明白了不？

剩下的参数就是方法所需的参数了。像addValue:toValue:方法有两个参数的方法，初次外，还有另外两个参数。因此，不调用Objective-C函数，你可以直接这样写也可达到同样的效果：

(void)foo {

int add = (int)objc_msgSend(self, NSSelectorFromString(@“addValue:toValue:”), 12, 34);

NSLog(@“add = %i”, add);

}

注：objc_msgSend函数的返回值是id类型，但被强转成int类型。这没问题是因为他们的大小都是一样的。如果方法返回不同大小的返回值，实际上是另一个方法被调用了。你可以在这里了解更多信息。如果返回值是浮点型，那么另一个objc_msgSend方法的变种被调用.

回想下上面Objective-C方法生成的等量C函数的签名如下：

int ViewController_addValue_toValue(id self, SEL _cmd, int a, int b)

现在对于这个写法应该没什么惊讶的。可以看出它跟我们objc_msgSend的签名非常匹配！意味着当objc_msgSend方法找到了对应方法实现时，调用的各个参数都正确了。你可以在这里阅读更多关于objc_msgSend方法的信息。

现在，你可以逆向工程

获得了ARM汇编的一些知识，你应该对程序中一些中断，崩溃或者运行不正确有种感觉了。为何你会想去看汇编代码？因为你找到更多信息看清到底是哪一步导致bug发生。

有时候，你并没有源码，例如，你崩溃发生在第三方库或者系统框架内。若能通过汇编调查将会让你快速找到问题所在。iOS SDK所有的框架都装在这个目录下：

<Path_to_Xcode>/Contents/Developer/Platforms/iPhoneOS.platform/Developer/ SDKs/iPhoneOS6.1.sdk/System/Library/Frameworks

为调查这些库，我建议你买这个软件HopperApp，该软件可以反汇编既而你可以查看。例如，打开UIKit库，你可以看到每个方法做了啥，看清来像这样：

这是http://www.raywenderlich.com/wp-content/uploads/2013/04/05-HopperApp-1.png方法的汇编代码。运用你新得到的ARM汇编知识，你应该可以知道方法做了什么。

第一个selector指针加载到r1，为objc_msgSend方法做准备。注意到并没有动过其他寄存器，那么r0中的self就和shouldAutorotateToInterfaceOrientation方法一样。

同样地，你也发现被调用的函数也是只有一个参数，因为他的名字里只有一个冒号。因为只剩下r2未处理了，那么传给shouldAutorotateToInterfaceOrientation的第一个参数就是我们需要传给调用函数的参数。

最后，调用函数后，r0没有动过。那么调用函数的返回值，就是当前函数的返回值。

因此你可以推论出这个函数是这么实现的：

(BOOL)shouldAutorotateToInterfaceOrientation: (UIInterfaceOrientation)interfaceOrientation {

return [self _doesTopViewControllerSupportInterfaceOrientation:interfaceOrientation];

}

哇哦！太简单了！通常一个函数的逻辑比这个复杂一些，但通常你都可以把他们组织起来，并快速的想明白一些代码做了什么。

何去何从？

最后

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Android工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Web前端开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Android开发知识点！不论你是刚入门Android开发的新手，还是希望在技术上不断提升的资深开发者，这些资料都将为你打开新的学习之门！

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！
学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。**

[外链图片转存中…(img-iOGdOf3b-1714871970975)]

[外链图片转存中…(img-aOcp7S8O-1714871970975)]

[外链图片转存中…(img-yljLoE8F-1714871970975)]

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

2401_84097393

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
iOS汇编教程(1)

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数初中级Android工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。因此收集整理了一份《2024年Web前端开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Android开发知识点！
复制链接

扫一扫