printf内幕----编程内幕(1)

    曾几何时,您有没有在夜深人静的时候想过一个问题,printf内部究竟做了什么?为何可以输出到屏幕上显示出来?

    先看看这段熟悉的代码:

   

//
//  Created by xi.chen on 2017/9/2.
//  Copyright © 2017 All rights reserved.
//

#include <stdio.h>
#include <string.h>
#include <fcntl.h>
#include <unistd.h>

int main()
{
    printf("hello, my cat!\n");
    return 0;
}

环境:

Mac OSX 10.12.3

Apple LLVM version 8.1.0 (clang-802.0.42)

Target: x86_64-apple-darwin16.4.0

Xcode 8.3.3

首先,我们先看看汇编代码.

(__TEXT,__text) section
_main:
0000000100000f50	pushq	%rbp
0000000100000f51	movq	%rsp, %rbp
0000000100000f54	subq	$0x10, %rsp
0000000100000f58	leaq	0x3b(%rip), %rdi ## literal pool for: "hello, my cat!\n"
0000000100000f5f	movl	$0x0, -0x4(%rbp)
0000000100000f66	movb	$0x0, %al
0000000100000f68	callq	0x100000f7a ## symbol stub for: _printf
0000000100000f6d	xorl	%ecx, %ecx
0000000100000f6f	movl	%eax, -0x8(%rbp)
0000000100000f72	movl	%ecx, %eax
0000000100000f74	addq	$0x10, %rsp
0000000100000f78	popq	%rbp
0000000100000f79	retq

可以看到,核心就是

callq 0x100000f7a ## symbol stub for: _printf

0000000100000f68
f68是在可执行文件的偏移.
可以用MachOView查看可执行文件的内部结构.

0000f60 45 fc 00 00 00 00 b0 00 e8 0d 00 00 00 31 c9 89

指令e8 0d 00 00 00 是call指令,相当于调用子程序,跳转到当前指令后一条指令的PC值(0x100000f6d) + 偏移值(0d), 即0x100000f7a.
也就是上面callq之后的地址值.


上面没有分析,0x100000000是什么?

xichen:hello xichen$ xcrun size -x -l -m !$
xcrun size -x -l -m /Users/xichen/Library/Developer/Xcode/DerivedData/hello-bkhrmjvnrfikgkfgkiemoyorgkig/Build/Products/Debug/hello
Segment __PAGEZERO: 0x100000000 (vmaddr 0x0 fileoff 0)
Segment __TEXT: 0x1000 (vmaddr 0x100000000 fileoff 0)
	Section __text: 0x2a (addr 0x100000f50 offset 3920)
	Section __stubs: 0x6 (addr 0x100000f7a offset 3962)
	Section __stub_helper: 0x1a (addr 0x100000f80 offset 3968)
	Section __cstring: 0x10 (addr 0x100000f9a offset 3994)
	Section __unwind_info: 0x48 (addr 0x100000fac offset 4012)
	total 0xa2
Segment __DATA: 0x1000 (vmaddr 0x100001000 fileoff 4096)
	Section __nl_symbol_ptr: 0x10 (addr 0x100001000 offset 4096)
	Section __la_symbol_ptr: 0x8 (addr 0x100001010 offset 4112)
	total 0x18
Segment __LINKEDIT: 0x3000 (vmaddr 0x100002000 fileoff 8192)
total 0x100005000

这个数值可以看成加载器把可执行文件加载到内存的虚拟地址基址. (上面的所有指令都是基于这个地址为基址)
回到callq这条指令,会跳转到地址0x100000f7a,对应的指令是:

0000f70 45 f8 89 c8 48 83 c4 10 5d c3 ff 25 90 00 00 00

ff指令是jmp指令, 反汇编如下:

(lldb) x/3i 0x100000f7a
    0x100000f7a: ff 25 90 00 00 00     jmpq   *0x90(%rip)               ; (void *)0x0000000100000f90
    0x100000f80: 4c 8d 1d 81 00 00 00  leaq   0x81(%rip), %r11          ; (void *)0x0000000000000000

jmpq跳转到: 0xf80 + 0x90地址的数值为地址的地方.

>>> hex(0xf80+0x90)
'0x1010'

即跳转到0x100001010.

(lldb) x/3g 0x100001010
0x100001010: 0x00007fffa8778180 0x0000000000000000
0x100001020: 0x0000000000000000

我们来看看printf的地址在哪里:

(lldb) dis -s printf
libsystem_c.dylib`printf:
    0x7fffa8778180 <+0>:  pushq  %rbp
    0x7fffa8778181 <+1>:  movq   %rsp, %rbp
    0x7fffa8778184 <+4>:  pushq  %r15
    0x7fffa8778186 <+6>:  pushq  %r14
    0x7fffa8778188 <+8>:  pushq  %rbx
    0x7fffa8778189 <+9>:  subq   $0xd8, %rsp
    0x7fffa8778190 <+16>: movq   %rdi, %r14
    0x7fffa8778193 <+19>: testb  %al, %al
    0x7fffa8778195 <+21>: je     0x7fffa87781c3            ; <+67>
    0x7fffa8778197 <+23>: movaps %xmm0, -0xc0(%rbp)


0x7fffa8778180是不是和上面对上来了?
我们继续dump printf后面调用了什么:

(lldb)  x/50i 0x7fffa8778180
...............
 
    0x7fffa8778235: 48 0f 45 f0           cmovneq %rax, %rsi
    0x7fffa8778239: 48 8d 4d c0           leaq   -0x40(%rbp), %rcx
    0x7fffa877823d: 48 89 df              movq   %rbx, %rdi
    0x7fffa8778240: 4c 89 f2              movq   %r14, %rdx
    0x7fffa8778243: e8 c0 20 00 00        callq  0x7fffa877a308            ; vfprintf_l
    0x7fffa8778248: 4c 3b 7d e0           cmpq   -0x20(%rbp), %r15
    0x7fffa877824c: 75 0e                 jne 

我们有幸可以看到mac开放的libc源代码:

int
printf(char const * __restrict fmt, ...)
{
	int ret;
	va_list ap;

	va_start(ap, fmt);
	ret = vfprintf_l(stdout, __current_locale(), fmt, ap);
	va_end(ap);
	return (ret);
}

调用vfprintf_l, 是不是感觉一切都在预期之内呢?
继续在libc跟踪一番,会发现最终会调用write系统调用完成.
write系统调用会使用int指令陷入内核,执行写数据的操作.

到此,您会不会有疑问,为何调用printf函数中跳转了好多次,是因为编译系统傻吗?当然不是,因为采用的是动态链接库, 主程序一开始并不知道调用的printf函数最终会在哪个地址,所以先保留了一个stub,等加载器加载运行时,再填入对应的地址.
就是上面的jmp跳转所实现的, 而call printf这个语句并不需要等运行时再计算地址,编译期就可以用此时设定的固定地址.

至此,我们已经理清了上面的flow. 那又是如何显示在屏幕上的呢?
如果从终端terminal开始,调用了上面的应用程序(比如hello),  terminal会fork一个进程, 并执行hello,然后等待hello完成 (此种是不带后台运行的模式).
hello调用了printf输出,printf是向stdout输出,为何向stdout会在此terminal上显示呢?
首先我们要明白,stdout究竟指向哪个设备?

xichen:hello xichen$ tty
/dev/ttys001

所以,printf其实是向/dev/ttys001设备去写. 
对应kernel的代码:

/*
 * ttwrite (LDISC)
 *
 * Process a write call on a tty device.
 *
 * Locks:	Assumes tty_lock() is held prior to calling.
 */
int
ttwrite(struct tty *tp, struct uio *uio, int flag)

终端会在tty有数据的时候,把数据画到屏幕上. (注意: printf后面的字符串是终端进程画到屏幕上的,不是hello画的,因为hello只是写文件,写文件当然不一定会显示到屏幕, 只是一般脑袋瓜子正常的终端都会回显对应的文本信息).

至于,如何把一段文本画到屏幕上,这个就不用多说了.

 


微风不燥,阳光正好,你就像风一样经过这里,愿你停留的片刻温暖舒心。

我是程序员小迷(致力于C、C++、Java、Kotlin、Android、Shell、JavaScript、TypeScript、Python等编程技术的技巧经验分享),若作品对您有帮助,请关注、分享、点赞、收藏、在看、喜欢,您的支持是我们为您提供帮助的最大动力。

欢迎关注。助您在编程路上越走越好!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值