Android知识点总结（十一）程序语言的编译过程

最新推荐文章于 2024-07-25 19:04:18 发布

a136447572

最新推荐文章于 2024-07-25 19:04:18 发布

阅读量267

点赞数 1

分类专栏： andriod 文章标签： android java c c++

本文链接：https://blog.csdn.net/a136447572/article/details/82349904

版权

andriod 专栏收录该内容

190 篇文章 1 订阅

订阅专栏

Android 知识点总结（目录） https://blog.csdn.net/a136447572/article/details/81027701

1.词法分析：将一串文本按规则分割成最小的结构，关键字、标识符、运算符、界符和常量等。一般实现方法是自动机和正则表达式
2.语法分析：将一系列单词组合成语法树。一般实现方法有自顶向下和自底向上
3.语义分析：对结构上正确的源程序进行上下文有关性质的审查
4.目标代码生成
5.代码优化：优化生成的目标代码，

Java代码编译过程简述

转自> https://blog.csdn.net/fuzhongmin05/article/details/54880257/

Javac的任务就是将Java源代码编译成Java字节码，也就是JVM能够识别的二进制代码，从表面看是将.java文件转化为.class文件。而实际上是将Java源代码转化成一连串二进制数字，这些二进制数字是有格式的，只有JVM能够真确的识别他们到底代表什么意思。
编译器把一种语言规范转化为另一种语言规范的这个过程需要哪些步骤？回答这个问题需要参照《编译原理》，总结过程如下：
1）词法分析：读取源代码，一个字节一个字节的读进来，找出这些词法中我们定义的语言关键词如：if、else、while等，识别哪些if是合法的哪些是不合法的。这个步骤就是词法分析过程。
词法分析的结果：就是从源代码中找出了一些规范化的token流，就像人类语言中，给你一句话你要分辨出哪些是一个词语，哪些是标点符号，哪些是动词，哪些是名词。
2）语法分析：就是对词法分析中得到的token流进行语法分析，这一步就是检查这些关键词组合在一起是不是符合Java语言规范。如if的后面是不是紧跟着一个布尔型判断表达式。
语法分析的结果：就是形成一个符合Java语言规定的抽象语法树，抽象语法树是一个结构化的语法表达形式，它的作用是把语言的主要词法用一个结构化的形式组织在一起。这棵语法树可以被后面按照新的规则再重新组织。
3）语义分析：语法分析完成之后也就不存在语法问题了，语义分析的主要工作就是把一些难懂的，复杂的语法转化成更简单的语法。就如难懂的文言文转化为大家都懂的百话文，或者是注释一下一些不懂的成语。
语义分析结果：就是将复杂的语法转化为简单的语法，对应到Java就是将foreach转化为for循环，还有一些注释等。最后生成一棵抽象的语法树，这棵语法树也就更接近目标语言的语法规则。
4）字节码生成：将会根据经过注释的抽象语法树生成字节码，也就是将一个数据结构转化为另外一个数据结构。就像将所有的中文词语翻译成英文单词后按照英文语法组装文英文语句。代码生成器的结果就是生成符合java虚拟机规范的字节码。这个过程中的需要的组件如下图2所示：
从上面的描述中我们知道编译就是将一种语言通过分析分解，再按照一定的方式先形成一个简单的框架（将Java源文件的字节流转化为对应的token流）然后在通过详细的分析按照一定的规定在这个框架里添加东西使这个token流形成更加结构化的语法树（就是将前面生成的token流中的一个个单词组装成一句话），但是这棵树离我们的目标—Java字节码还有点差距，所以再进行语义分析使那颗粗糙的树更加完整完善（给类添加默认的构造函数，检查变量在使用前有没有初始化，检查操作变量类型是否匹配），然后javac编译器调用com.sun.tools.javac.jvm.Gen类遍历这棵语法树将java方法中的代码块转换成符合JVM语法的命令形式的二进制数据。按照JVM的文件组织格式将字节码输出到以class为扩展名的文件中，也就是生成最终的java字节码。词法分析就是将关键词组织成token流即检查源码中的的关键词是否真确并组织成token流，而语法分析就是检查源码是否符合java语法规范并将词组成语句。语义分析就是简化复杂的添加缺少的，检查变量类型是否合法。代码生成器就是遍历这棵树生成符合JVM规范的代码。

C语言真正的编译过程

转自> https://www.cnblogs.com/wuyouxiaocai/p/5701088.html
从一个源文件(.c)到可执行程序到底经历了哪几步，我想大多数的人都知道，到时到底每一步都做了什么，我估计也没多少人能够说得清清楚楚，明明白白。

其实总的流程是这样的

【第一步】编辑hello.c

1 #include <stdio.h>
2 #include <stdlib.h>
3 int main()
4 {
5         printf("hello world!\n");
6         return 0;
7 }

【第二步】预处理

预处理过程实质上是处理“#”，将#include包含的头文件直接拷贝到hell.c当中；将#define定义的宏进行替换，同时将代码中没用的注释部分删除等

具体做的事儿如下：

（1）将所有的#define删除，并且展开所有的宏定义。说白了就是字符替换

（2）处理所有的条件编译指令，#ifdef #ifndef #endif等，就是带#的那些

（3）处理#include，将#include指向的文件插入到该行处

（4）删除所有注释

（5）添加行号和文件标示，这样的在调试和编译出错的时候才知道是是哪个文件的哪一行

（6）保留#pragma编译器指令，因为编译器需要使用它们。

gcc -E hello.c -o a.c可以生成预处理后的文件。通过查看文件内容和文件大小可以得知a.c讲stdio.h和stdlib.h包含了进来。
【第三步】编译

编译的过程实质上是把高级语言翻译成机器语言的过程，即对a.c做了这些事儿

（1）词法分析，

（2）语法分析

（3）语义分析

（4）优化后生成相应的汇编代码

从高级语言->汇编语言->机器语言（二进制）

gcc -S hello.c -o a.s可以生成汇编代码

   .file   "hello.c"
    .section        .rodata

.LC0:
.string “hello world!”
.text
.globl main
.type main, @function
main:
.LFB0:
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
andl $-16, %esp subl$ 16, %esp
movl $.LC0, (%esp) call puts movl$ 0, %eax
leave
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
.LFE0:
.size main, .-main
.ident “GCC: (Ubuntu/Linaro 4.6.3-1ubuntu5) 4.6.3”
.section .note.GNU-stack,”“,@progbits

gcc -c hello.c -o a.o将源文件翻译成二进制文件。类Uinx系统编译的结果生生成.o文件，Windows系统是生成.obj文件。

编译的过程就是把hello.c翻译成二进制文件

【第四步】链接

就像刚才的hello.c它使用到了C标准库的东西“printf”，但是编译过程只是把源文件翻译成二进制而已，这个二进制还不能直接执行，这个时候就需要做一个动作，

将翻译成的二进制与需要用到库绑定在一块。打个比方编译的过程就向你对你老婆说，我要吃雪糕。你只是给你老婆发出了你要吃雪糕的诉求而已，但是雪糕还没有到。

绑定就是说你要吃的雪糕你的老婆已经给你买了，你可以happy。

gcc hello.c -o a可以生成可执行程序。即gcc不带任何参数。ldd就可以看到你的可执行程序依赖的库。

可以看到a.o的大小是1.1k，毕竟他只是把源文件翻译成二进制文件。a却有7k，应该是他多了很多“绳子”吧。在运行的时候这些“绳子”就将对应的库函数“牵过来”。很形象的比喻是不是？哈哈。libc.so.6 中就对咱们用的printf进行了定义。

c++编译过程

转自> https://blog.csdn.net/csdn_violin/article/details/79430384

了解编译过程的益处
c++工程相关的问题
什么是库？静态库和动态库又有什么区别？
头文件起什么作用？
编译过程简介
名词：
编译：把源文件中的源代码翻译成机器语言，保存到目标文件中。如果编译通过，就会把CPP转换成OBJ文件。
编译单元：
每个cpp就是一个编译单元，每个编译单元相互之间是独立且相互不知的。一个编译单元（Translation Unit）是指一个.cpp文件以及这所include的所有.h文件，.h文件里面的代码将会被扩展到包含它的.cpp文件里，然后编译器编译该.cpp文件为一个.obj文件，后者拥有PE（Portable Executable，即Windows可执行文件）文件格式，并且本身包含的就是二进制代码，但是不一定能执行，因为并不能保证其中一定有main函数。当编译器将一个工程里的所有.cpp文件以分离的方式编译完毕后，再由链接器进行链接成为一个.exe或.dll文件。
目标文件：编译后生成的文件，以机器码的形式包含了编译单元里所有的函数和数据、导出符号表、未解决符号表、地址重定向表等
目标文件的类型：
可重定位文件（.o、.obj文件）：其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。每个cpp会被编译成一个.o文件
共享的目标文件（库文件）
这种文件存放了适合于在两种上下文里链接的代码和数据。
第一种是链接程序（静态库）可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件
静态链接库实际上是一个目标文件的集合，其中的每个文件含有库中的一个或者一组相关函数的代码
第二种是动态链接程序（动态库）将它与另一个可执行文件及其它的共享目标文件结合到一起，创建一个进程映象
动态链接库在程序执行时才被调用
可执行文件
一个可以被操作系统创建一个进程来执行之的文件
.o文件在编译后就能获得，但是库文件、可执行文件都需要在链接后才能获得
c++程序编译过程图
编译过程
作用：编译是读取源程序（字符流），对之进行词法和语法的分析，将高级语言指令转换为功能等效的汇编代码,再转换为机器代码，生成目标文件（.obj）
分为两个过程
编译：
预处理阶段
宏#define
条件编译指令，如#ifdef，#ifndef，#else，#elif，#endif等。
头文件包含，#include
特殊符号
LINE标识将被解释为当前行号（十进制
数）
FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换
编译、优化阶段
针对代码优化，不依赖具体计算机
针对计算机优化
汇编
把汇编语言代码翻译成目标机器指令，生成目标文件（.o文件、.obj文件）。此过程会依赖机器的硬件和操作系统环境。
3张表：.o文件至少要提供3张表
导出符号表：即该目标文件可以提供的符号及地址
未解决符号表：即找不到地址的符号的列表，告诉链接器这些符号没找到地址
地址重定向表：
链接的时候，链接器会为目标文件的“未解决符号表”里的符号在其他目标文件中寻找地址，但是每个目标文件的地址都是从0x0000开始的，这样直接将对方文件中符号的地址拿过来用显然会是不正确的，为了区分不同的文件，链接器在链接时就会对每个目标文件的地址进行调整。在这个例子中，假如B.obj的0x0000被定位到可执行文件的0x00001000上，而A.obj的0x0000被定位到可执行文件的0x00002000上，那么实现上对链接器来说，A.obj的导出符号地地址都会加上0x00002000，B.obj所有的符号地址也会加上0x00001000。这样就可以保证地址不会重复。
因为被加上了起始地址，所以符号在自身文件中的实际地址就不对了，需要再用一张地址重定向表记录符号相对自身文件的地址
例子：

链接过程
链接：链接程序的主要工作就是将有关的目标文件（库文件、.o文件）彼此相连接，也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。
具体工作：
当链接器进行链接的时候，首先决定各个目标文件在最终可执行文件里的位置。然后访问所有目标文件的地址重定义表，对其中记录的地址进行重定向（加上一个偏移量，即该编译单元在可执行文件上的起始地址）。然后遍历所有目标文件的未解决符号表，并且在所有的导出符号表里查找匹配的符号，并在未解决符号表中所记录的位置上填写实现地址。最后把所有的目标文件的内容写在各自的位置上，再作一些另的工作，就生成一个可执行文件。
链接方式
静态链接：函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。
动态链接：函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中
记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数
代码。
两种链接方式的比较
C/C++中提供的一些特性
extern：这就是告诉编译器，这个变量或函数在别的编译单元里定义了，也就是要把这个符号放到未解决符号表里面去（外部链接）。
static：如果该关键字位于全局函数或者变量的声明前面，表明该编译单元不导出这个函数或变量，因些这个符号不能在别的编译单元中使用（内部链接）。如果是static局部变量，则该变量的存储方式和全局变量一样，但是仍然不导出符号。
默认链接属性：对于函数和变量，默认链接是外部链接，对于const变量，默认内部链接。
外部链接的利弊：外部链接的符号在整个程序范围内都是可以使用的，这就要求其他编译单元不能导出相同的符号（不然就会报 duplicated external symbols）。
为什么头文件里一般只可以有声明不能有定义：头文件可以被多个编译单元包含，如果头文件里面有定义的话，那么每个包含这头文件的编译单元都会对同一个符号进行定义，如果该符号为外部链接，则会导致duplicated external symbols链接错误。
为什么公共使用的内联函数要定义于头文件里：因为编译时编译单元之间互不知道，如果内联被定义于.cpp文件中，编译其他使用该函数的编译单元的时候没有办法找到函数的定义，因些无法对函数进行展开（内联函数不展开，即不采用在使用处标记函数代码再跳转的方式，而是直接将代码嵌入）。所以如果内联函数定义于.cpp里，那么就只有这个.cpp文件能使用它。
.h中的inline 函数可以被多个cpp包含而不造成符号冲突，因为它会被直接嵌入到调用的地方，内部联结不形成外部符号,对外不可见
常见编译器
makefile及make工具
常见编译器使用方法
编译错误解析

a136447572

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Android知识点总结（十一）程序语言的编译过程

1.词法分析：将一串文本按规则分割成最小的结构，关键字、标识符、运算符、界符和常量等。一般实现方法是自动机和正则表达式 2.语法分析：将一系列单词组合成语法树。一般实现方法有自顶向下和自底向上 3.语义分析：对结构上正确的源程序进行上下文有关性质的审查 4.目标代码生成 5.代码优化：优化生成的目标代码，Java代码编译过程简述转自&amp;gt; https://blog.csdn.ne...
复制链接

扫一扫

专栏目录