CSPP学习笔记-Ch2 信息的表示和处理-CSDN博客

本文链接：https://blog.csdn.net/Chauncyxu/article/details/120614753

C++ 建立在 C 语言基础之上，使用完全相同的数字表示和运算。

GNU 编译器套装（GNU Compiler Collection，GCC）可以基于不同的命令行选项，依照多个不同版本的C 语言规则来编译程序。

C版本	GCC命令行选项
GNU 89	无，-std=gnu89
ANSI, ISO C90	-ansi, -std=c89
ISO C99	-std=c99
ISO C11	-std=c11

2.1 信息存储

1、字节：作为最小的可寻址的内存单位。

2、虚拟内存：机器级程序将内存视为一个非常大的字节数组，称之为虚拟内存。

3、地址：内存的每一个字节都由一个唯一的数字来标识，称之为地址。

4、虚拟地址空间：所有可能的地址集合，称为虚拟地址空间。

只是一个展现给机器级程序的概念性映像。

5、程序对象：程序数据、指令和控制信息。

机器级程序并不包含关于数据类型等信息。

2.1.1 十六进制表示法

二进制：太冗长。

十进制：位模式转换很麻烦。

十六进制：以16为基数，简写hex，以0x或0X作为数字前缀。（0~9，‘A’ ~ ‘F’，不区分大小写）。

1、二进制与十六进制转换

从低位开始，每四个二进制位换算成一个十六位数，高位不足四位补0。反之亦然。

十六进制	1	7	3	A	4	c
二进制	0001	0111	0011	1010	0100	1100

2、十进制与十六进制转换

（1）十进制为 2 的非负整数 n 次幂

$x = 2^n，n = i+4j$ ，其中 $0 \leq i \leq 3$ ，可将 $x$ 写成最高有效位为 $2^i$ ，后面跟着 $j$ 个十六进制 0。

比如 $x=2048=2^{11}，n =11=3+4*2，x=0x8000$

（2）一般十进制转16进制

$+r;{\space} x=q;$

2.1.2 字数据大小

字长： $w$ ，指明指针数据的标称大小，决定了虚拟地址空间的最大大小，范围 $0$ ~ $2^w-1$ ，程序最多访问 $2^w$ 个字节。

大多数 64 位机器向后兼容 32 位机器编译的程序：

linux> gcc -m32 prog.c		# 可以在32位或64位机器上正确运行
linux> gcc -m64 prog.c		# 只能在64位机器上运行。

32位程序，64位程序，区别在于如何编译的，而不是运行的机器类型。

C声明		字节数
有符号	无符号	32位	64位
[signed ] char	unsigned char	1	1
short	unsigned short	2	2
int	unsigned	4	4
long	unsigned long	4	8
int32_t	uint32_t	4	4
int64_t	uint64_t	8	8
char *		4	8
float		4	4
double		8	8

其中 unsigned 关键字的位置并没有固定的要求。

2.1.3 寻址和字节顺序

两个规则：

对象的地址——其所占内存位置中最小的地址
如何排序对象的字节
- 小端法：低字节存放在低地址
- 大端法：低字节存放在高地址

网络字节序：大端法存储

sizeof(T) 返回存储一个类型为T的对象所需要的字节数。

2.1.4 表示字符串

C 语言中字符串被编码为一个以 ‘\0’ 为结尾的字符数组。

char c[10] = {123456};
char *c_ptr = "123456";
sizeof(c);		// 10
sizeof(c_ptr);	// 32位：4
strlen(c);		// 7

2.1.5 表示代码

不同的机器类型使用不同且不兼容的指令和编码方式，因此同样的进程，其二进制代码也是不兼容的，很少能够移植。

从机器的角度，程序只是一个字节序列，没有关于源程序的任何信息（帮助调试的辅助表除外）。

2.1.6 布尔代数简介

取反（~）	与（&）	或（\|）	异或（^）

1、位运算

位向量 $a=[a_{w-1},a_{w-2},...,a_0]$ ， $b=[b_{w-1},b_{w-2},...,b_0]$ 。

$a{\space}\&{\space}b$ 定义为一个长度为 $w$ 的位向量，其中第 i 个元素等于 $a_i{\space}\&{\space}b_i,{\space}0≤i<w$ 。

同理，可得 $a{\space}|{\space}b$ ， $a{\space}$ ^ ${\space}b$ 和 ~ $a$

【应用】有时候可以高效的解决一些问题：

求一个数的二进制表示法中有多少个 1。

while(x)
{
    count1++; x&(x-1);
}

2、运算性质

$a{\space}\&{\space}(b{\space}|{\space}c)=(a{\space}\&{\space}b){\space}|{\space}(a{\space}\&{\space}c)$

$a{\space}|{\space}(b{\space}\&{\space}c)=(a{\space}|{\space}b){\space}\&{\space}(a{\space}|{\space}c)$

$a$ ^ $a = 0$

$(a$ ^ $b)$ ^ $a =$ $(a$ ^ $a)$ ^ $b = b$

3、逻辑运算

非零参数都表示 TRUE，参数 0 表示 FALSE。

4、移位运算

操作数 $x$ ，位表示为 $x_{w-1},x_{w-1},...,x_0]$ 。

【左移】 $x < < k$ 位表示为 $x_{w-k-1},x_{w-k-2},...,x_0,0,...,0]$ ，丢弃原来的 $k$ 个最高位，并在右端补 $k$ 个 $0$ 。

【右移】分两种：

逻辑右移： $x > > k$ 位表示为 $0,...,0,x_{w-k},x_{w-k},...,x_{k}]$ ，丢弃原来的 $k$ 个最低位，并在左端补 $k$ 个 $0$ 。
算术右移： $x > > k$ 位表示为 $0,...,0,x_{w-k},x_{w-k},...,x_{k}]$ ，丢弃原来的 $k$ 个最低位，并在左端补 $k$ 个原来最高有效位的值（1或者0）。

$k$ 的大小，原则上没有限制，因为会对 $k$ 取字长 $w$ 的余数 $k{\%}w$  。
不过这种行为对于 C 程序来说可能是没有保证的（不安全因素），因此，** $k$ 的取值应该保持小于字长 $w$ **。

2.2 整数表示

两种表示：（1）只能表示非负数；（2）表示负数、零和正数。

符号	值or表达式	类型	含义
$B2T_w$	$=-x_{w-1}2^{w-1}+\sum_{i=0}^{w-2}x_i2^i$	函数	Binary to Two’s-complement，二进制转补码
$B2U_w$	$=\sum_{i=0}^{w-1}x_i2^i$	函数	Binary to Unsigned，二进制转无符号数
$U2B_w$	与 $B2U_w$ 是双射	函数	Unsigned to Binary，无符号数转二进制
$U2T_w$	$=\begin{cases}u,&u≤TMax_w\\u-2^w,&u>TMax_w\end{cases},{\space}{\space} 0≤u≤UMax_w$	函数	Unsigned to Two’s-complement，无符号数转补码
$T2B_w$	与 $B2T_w$ 是双射	函数	Two’s-complement to Binary，补码转二进制
$T2U_w$	$=\begin{cases}x+2^w,&x<0\\x,&x≥0\end{cases},{\space}{\space}TMin_w≤x≤TMax_w$	函数	Two’s-complement to Unsigned，补码转无符号数
$TMin_w$	$2^{w-1}$	常数	最小补码值
$TMax_w$	$2^{w-1}-1$	常数	最大补码值
$UMax_w$	$2^w-1$	常数	最大无符号数

$w$ 为数据表示的位数。

	十进制(decimal)	16进制（hex）	二进制（Binary）
$U M a x$	$65535$	$FF{\space}{\space} FF$	${\space}{\space}11111111$
$T M a x$	$32767$	$7F{\space}{\space} FF$	$01111111{\space}{\space} 11111111$
$T M i n$	$- 32768$	$80{\space}{\space} 00$	${\space}{\space} 00000000$
$- 1$	$- 1$	$FF{\space}{\space} FF$	${\space}{\space} 11111111$
$0$	$0$	$00{\space}{\space} 00$	${\space}{\space} 00000000$

$w$	8	16	32	64
UMax	255	65535	4,294,967,295	18,446,774,073,709,551,615
TMax	127	32767	2,147,483,647	9,223,372,036,854,775,807
TMin	-128	-32768	-2,147,483,648	-9,223,372,036,854,775,808

2.2.1 无符号数的编码

原理1：无符号数编码的定义

对向量 $\vec {x}=[x_{w-1},{\space}x_{w-2},{\space}...,x_0]:B2U_w(\vec {x})=\sum_{i=0}^{w-1}x_i2^i$ .

$B2U_4([1011])=1×2^3+0×2^2+1×2^1+1×2^0=11$

原理2：无符号数编码的唯一性

函数 $B2U_w$ 是一个双射，输入输出一一对应。

应用&意义

想要把字仅仅看做是位的集合而没有任何数字意义时，无符号数值是非常有用的，比如内存地址。
当实现模运算和多精度运算的数学包时，数字是由字的数组来表示的，无符号值也会非常有用。

2.2.2 补码编码

原理1：补码编码的定义

对向量 $\vec {x}=[x_{w-1},{\space}x_{w-2},{\space}...,x_0]:B2T_w(\vec {x})=-x_{w-1}2^{w-1}+\sum_{i=0}^{w-2}x_i2^i$ .

$B2T_4([1011])=-1×2^3+0×2^2+1×2^1+1×2^0=-8+0+2+1=-5$

原理2：补码编码的唯一性

函数 $B2T_w$ 是一个双射，输入输出一一对应。

Compare：Unsigned & Two’s-complement

补码的范围是不对称的： $∣ T M i n ∣ = ∣ T M a x ∣ + 1$ ， $∣ T m i n ∣$ 没有与之对应的正数。（-1与0为一对时）
最大的无符号数值比补码的最大值大1： $UMax_w=2TMax_w+1$

Other：

几乎所有机器都是要求用补码形式来表示无符号整数。
C 库文件 $< l i m i t . h >$ 定义了一组常量，来限定编译器运行的这台机器的不同整型数据类型的取值范围，例如常量 INT_MAX、INT_MIN、INT_UMAX。
如果机器的 int 有 $w$ 位，这些常量就对应于 $ TMax_w $ 、$ TMin_x$ 和 $UMax_x$ 的值。
ISO C99 标准在文件 $< s t d i n t . h >$ 中引入了确定大小的整数类型类，定义了形如 intN_t 和 uintN_t，对不同的 N 值指定 N 位有符号和无符号正数。
N 的具体值与实现相关。
它们是通过一组宏来进行替换的。
有符号数和补码是什么关系？
答：补码是有符号数在机器中的表达方式。
有符号数还有反码和原码两种标准表示方法。
反码（Ones’ Complement）：除了最高有效位的权是 $2^{w-1}-1)$ ，其他部分和补码相同。
$B2O_w(\vec {x})=-x_{w-1}(2^{w-1}-1)+\sum_{i=0}^{w-2}x_i2^i$
原码（Sign-Magnitude）：最高有效位是符号位，用来确定剩下的位应该是取正还是负。
$B2S_w(\vec {x})=(-1)^{x_{w-1}}×(\sum_{i=0}^{w-2}x_i2^i)$
补码 = 反码 + 1
无论如何，几乎所有的机器都是用补码表示整数，而不是用反码或原码。

2.2.3 有符号数和无符号数之间的转换

C 语言允许在各种不同的数字数据类型之间做强制类型转换。

处理同样字长的有符号数和无符号数之间相互转换的一般规则是：数值可能会改变，但是位模式不变——就是构成的0和1的组合关系不变，变的只是获得最终数值的计算方式。

原理1：补码转换为无符号数

对满足 $TMin_w≤x≤TMax_w$ 的 $x$ 有： $T2U_x(x)=\begin{cases}x+2^w,&x<0\\x,&x≥0\end{cases}$ .

$T2U_{16}(-12345)=-12345+2^{16}=53191$

原理2：无符号数转换为补码

对满足 $0≤u≤UMax_w$ 的 $u$ 有： $U2T_w(u)=\begin{cases}u,&u≤TMax_w\\u-2^w,&u>TMax_w\end{cases}$ .

C 语言中的有符号数和无符号数

默认是有符号的。
要创建一个无符号常量，必须加上后缀字符‘U’或者‘u’。
当执行一个运算时，如果一个是有符号的，另一个是无符号的，则 C 语言会隐式地将有符号参数强制转换为无符号数，并假设这两个数都是非负的，最后再指向运算。
【注意】这种隐式转换对于标准的算术运算并无多大差异，但对于像‘<’和‘>’这样的关系运算符，就会导致非直观的结果。

例如：-1 < 0U，此时会先将 -1 转换为无符号数，假设 int 为32位补码，则此表达式等价于4294967295U < 0U，结果显然是 false，但原表达式的结果是 true。

C 语言中，数据类型 size_t 一般被定义为 unsigned int，所以在调用一些库函数时要格外的注意有符号数和补码数的隐式转换！

2.2.4 扩展一个数字的位表示

从一个较小的数据类型转换到一个较大的类型。

原理1：无符号数的零扩展（zero extension）

定义宽度为 $w$ 的位向量 $\vec u=[u_{w-1},{\space}u_{w-2},{\space}...,u_0]$ 和宽度为 $w^{'}$ 的位向量 $\vec u'=[$ $0,{\space}...,0,$ ${\space}u_{w-1},{\space}u_{w-2},{\space}...,u_0]$ ，其中 $w^{'} > w$ 。则 $B2U_w(\vec u)=B2U_{w'}(\vec{u}')$ 。

原理2：补码数的符号扩展（sign extension）

定义宽度为 $w$ 的位向量 $\vec x=[x_{w-1},{\space}x_{w-2},{\space}...,x_0]$ 和宽度为 $w^{'}$ 的位向量 $\vec x=[$ $x_{w-1},{\space}...,x_{w-1},$ ${\space}x_{w-1},{\space}x_{w-2},{\space}...,x_0]$ ，其中 $w^{'} > w$ 。则 $B2T_w(\vec x)=B2T_{w'}(\vec{x}')$ 。

short sx = -12345;
unsigned short usx = sx;
int x = sx;
unsigned us = usx;
printf("sx  = %d:\t",sx);
show_bytes((byte_pointer)&sx, sizeof(short));
printf("usx = %u:\t",usx);
show_bytes((byte_pointer)&usx, sizeof(unsigned short));
printf("x   = %d:\t",x);
show_bytes((byte_pointer)&x, sizeof(int));
printf("ux  = %u:\t",ux);
show_bytes((byte_pointer)&ux, sizeof(unsigned));
// 在采用补码表示的32位大端法机器上运行时，输出如下：
sx  = -12345:	cf c7
use = 53191:	cf c7
x   = -12345:	ff ff cf c7		// 符号扩展
ux  = 53191:	00 00 cf c7		// 零扩展

C 语言补码和无符号数的转换规则

先扩展位大小，再完成有符号到补码的转换。（这相对顺序会影响程序的行为的！）

2.2.5 截断一个数字的位表示

减少表示一个数字的位数。

截断一个数字可能会改变它的值——这也是溢出的一种形式。

原理1：截断无符号数

令 $\vec u$ 等于位向量 $[u_{w-1},{\space}u_{w-2},{\space}...,u_0]$ ，而 $\vec u'$ 是将其截断为 $k$ 位的结果： $\vec u'=[u_{k-1},{\space}u_{k-2},{\space}...,u_0]$ 。令 $u=B2U_w(\vec u),{\space}\vec u'=B2U_k(\vec u')$ 。则 ${\space}mod{\space}2^k$ 。

原理2：截断补码数值

令 $\vec x$ 等于位向量 $[x_{w-1},{\space}x_{w-2},{\space}...,x_0]$ ，而 $\vec x'$ 是将其截断为 $k$ 位的结果： $\vec x'=[x_{k-1},{\space}x_{k-2},{\space}...,x_0]$ 。令 $x=B2U_w(\vec x),{\space}\vec x'=B2U_k(\vec x')$ 。则 $x'=U2T_w(x {\space}mod{\space}2^k)$ 。（先从二进制数转无符号数，然后求模实现截断，最后无符号数转补码。）

2.3 整数运算

算术运算的溢出：完整的整数结果发生了“字长膨胀”，不能放到原数据类型的字长限制中去。

符合	类型	含义
$+^t_w$	操作	截断为 $w$ 位的补码加法
$+^u_w$	操作	截断为 $w$ 位的无符号数加法
$*^t_w$	操作	截断为 $w$ 位的补码乘法
$*^u_w$	操作	截断为 $w$ 位的无符号数乘法
$-^t_w$	操作	截断为 $w$ 位的补码减法
$-^u_w$	操作	截断为 $w$ 位的无符号数减法

2.3.1 无符号加法

原理1：无符号加法

对满足 $0≤x,y<2^w$ 的 $x$ 和 $y$ 有： $x+^u_wy=\begin{cases}x+y,&x+y<2^w&\text{正常}\\x+y-2^w,&2^w≤x+y<2^{w+1}&\text{溢出} \end{cases}$

C 程序，不会将溢出作为错误而发出信号。只能额外去判断👇

原理2：检测无符号数加法中的溢出

对在范围 $0≤x,y≤UMax_w$ 中的 $x$ 和 $y$ ，令 $s=x+^u_wy$ ，则当且仅当 s<x || s<y 时，发生了溢出。

原理3：无符号数求反

对满足 $0≤x<2^w$ 的任意 $x$ ，其 $w$ 位的无符号逆元 $-^u_wx=\begin{cases}x,&x=0\\2^w-x,&x>0\end{cases}$ .

2.3.2 补码加法

原理1：补码加法

对满足 $2^{w-1}≤x,y≤2^{w-1}-1$ 的整数 $x$ 和 $y$ ，有： $x+^t_wy=\begin{cases}x+y-2^w,&2^{w-1}≤x+y&\text{正溢出}\\x+y,&-2^{w-1}≤x+y<2^{w-1}&\text{正常}\\x+y+2^w,&x+y<-2^{w-1}&\text{负溢出}\end{cases}$ .

补码加法与无符号加法有相同的位级表示，补码加法就是将其参数转换为无符号数，执行无符号数加法，再将结果转换为补码：

$x+^t_wy=U2T_w(T2U_w(x)+^u_wT2U_w(y))$

原理2：检测补码加法中的溢出

对满足 $TMin_w≤x,y≤TMax_w$ 的 $x$ 和 $y$ ，令 $s=x+^t_wy$ 。

当且仅当 $x > 0, y > 0$ ，但 $s \leq 0$ 时，计算 $s$ 发生正溢出；
当且仅当 $x < 0, y < 0$ ，但 $s \geq 0$ 时，计算 $s$ 发生负溢出；

原理3：补码的非

对满足 $TMin_w≤x≤TMax_w$ 中 $x$ ，其补码的非 $-^t_wx=\begin{cases}TMin_w,&x=TMin_w\\-x,&x>TMin_w\end{cases}$ .

-1和1对应，-2和2对应，0和0对应， $TMin_w$ 和 $TMin_w$ 对应。

补码的非的位级表示

对补码的每一位取反（0变成1，1变成0），再对结果加1。
将位向量分为两部分：假设 $k$ 是位模式中最右边1的位置，对位 $k$ 左边的所有位取反，就得到补码的非。
例如 $x$ 位级表示形如 $[x_{w-1},{\space}x_{w-2},{\space}...,1,0,..0,]$ ，只要 $x \neq = 0$ 就能找到这样的 $k$ 。这个 $x$ 的非写成二进制格式就是 $[~x_{w-1},{\space}~x_{w-2},{\space}...,~x_{k+1},1,0,...,0]$ 。

2.3.3 无符号乘法

原理：无符号乘法

对满足 $0≤x,y≤UMax_w$ 的 $x$ 和 $y$ 有： $x*^u_wy=(x·y)\text{mod}{\space}2^w$ .

C 语言中的无符号乘法被定义为产生 $w$ 位的值，就是 $2 w$ 位的整数乘积的低 $w$ 位表示的值；
将一个无符号数截断为 $w $ 位等价于计算该值模 $2^w$ .

2.3.4 补码乘法

原理1：补码乘法

对满足 $TMin_w≤x,y≤TMax_w$ 的 $x$ 和 $y$ 有： $x*^t_wy=U2T_w((x·y)\text{mod}{\space}2^w)$ .

原理2：无符号和补码乘法的位级等价性

给定长度为 $w$ 的位向量 $\vec x$ 和 $\vec y$ ：

用补码形式的位向量表示来定义整数 $x$ 和 $y$ ： $x=B2T_W(\vec x)$ ， $y=B2T_w(\vec y)$ 。

用无符号形式的位向量表示来定义非负整数 $x^{'}$ 和 $y^{'}$ ： $x'=B2U_W(\vec x)$ ， $y'=B2U_w(\vec y)$ 。

则： $T2B_w(x*^t_wy)=U2B_w(x'*^u_wy')$ .

溢出：

不能用减法来检验加法是否溢出，因为阿贝尔群。

但能用除法来检验乘法是否溢出。

2.3.5 乘以常数

原理1：与 2 的幂相乘的无符号乘法

C 变量 x 和 k 是无符号数值 $x$ 和 $k$ ，且 $0 \leq k < w$ ，则 C 表达式 $x < < k$ 产生数值 $x*^u_w2^k$ .

由于固定大小的补码算术运算的位级操作与其无符号运算等价。

原理2：与 2 的幂相乘的补码乘法

C 变量 x 和 k 分别是补码值 $x$ 和无符号数值 $k$ ，且 $0 \leq k < w$ ，则 C 表达式 $x < < k$ 产生数值 $x*^t_w2^k$ .

溢出：

无论是无符号运算还是补码运算，乘以 2 的幂都可能导致溢出。

编译器优化：与常数相乘

整数乘法指令比加法指令要慢很多。编译器对此进行优化。

许多 C 语言编译器试图以移位、加法和减法的组合来消除很多整数乘以常数的情况。

例如：x *14，利用 $14=2^3+2^2+2^1$ ，编译器会将乘法重写为 $(x < < 3) + (x < < 2) + (x < < 1)$ ，将一个乘法替换为3个移位和2个加法。

2.3.6 除以 2 的幂

整数除法要比整数乘法更慢。

向下舍入：

对任何实数 $a$ ，定义 $└ a ┘$ 为唯一的整数 $a^{'}$ ，使得 $a^{'} \leq a < a^{'} + 1$ ；

对于 $x \geq 0$ 和 $y > 0$ ，结果会是 $└ x / y ┘$ ，向下舍入一个正值。

向上舍入：

对任何实数 $a$ ，定义 $┌ a ┐$ 为唯一的整数 $a^{'}$ ，使得 $a^{'} - 1 < a \leq a^{'}$ ；

对于 $x < 0$ 和 $y > 0$ ，结果会是 $┌ x / y ┐$ ，向上舍入一个负值。

原理1：除以 2 的幂的无符号除法

C 变量 x 和 k 是无符号数值 $x$ 和 $k$ ，且 $0 \leq k < w$ ，则 C 表达式 $x > > k$ 产生数值 $x/2^k┘$ .

原理2：除以 2 的幂的补码除法，向下舍入

C 变量 x 和 k 分别是补码值 $x$ 和无符号数值 $k$ ，且 $0 \leq k < w$ ，则当执行算术移位时， C 表达式 $x > > k$ 产生数值 $x/2^k┘$ .

对于 $x \geq 0$ ，变量 $x$ 的最高有效位为0，所以效果与逻辑右移是一样的。
对于 $x < 0$ ：
- 对于不需要舍入的情况，结果是 $x/2^k┘$ ；
- 对于需要舍入的情况， $x/2^k┘$ 采取向下舍入，计算结果将比实际结果大1。
  例如： $└ - 77.123 ┘ = - 77$ 。

原理2：除以 2 的幂的补码除法，设置偏置后，再向上舍入

C 变量 x 和 k 分别是补码值 $x$ 和无符号数值 $k$ ，且 $0 \leq k < w$ ，则当执行算术移位时， C 表达式 $(x + (1 < < k) - 1) > > k$ 产生数值 $x/2^k┐$ .

k	偏置量	-12340+偏置量	>>k（二进制）	十进制	$12340/2^k$	$12340/2^k┘$
0	0	1100111111001100	1100111111001100	-12340	-12340.0	-12340
1	1	1100111111001101	1110011111100110	-6170	-6170.0	-6170
4	15	1100111111011011	1111110011111101	-771	-771.25	-771
8	255	1101000011001011	1111111111010000	-48	-48.203125	-48

对于使用算术右移的补码及其，C 表达式 (x<0 ? x+(1<<k)-1 : x)>>k 将会计算数值 $x/2^k$ 。

注意

这种方法不能推广到除以任意常数。同乘法不同，不能用除以 2 的幂的除法来表示除以任意常数 $K$ 的除法。

2.3.7 整数运算思考

计算机执行的**“整数”运算实际上是一种模运算**。
溢出：表示数字的有限字长限制了结果的取值范围。
补码表示提供了一种既能表示负数也能表示正数的灵活方式，同时使用了与执行无符号算术相同的位级实现。
无论运算数是以无符号形式还是以补码形式表示的，都有完全一样或者非常类似的位级行为。

2.4 浮点数

浮点表示对形如 $V=x×2^y$ 的有理数进行编码——一般使用 IEEE 标准 754 编码。

由于有限的精度范围，浮点数多数情况下无法被精确表示，必须向上或向下调整，IEEE 标准 754 给出了四种调整方式。

2.4.1 二进制小数

定点表示法

十进制表示： $d=d_md_{m-1}···d_1d_0.d_{-1}d_{-2}···d_{-n}=\sum^m_{i=-n}10^i×d_i,{\space}d_i = \{0,1,2,3,4,5,6,7,8,9\}$

$12.34_{10}=1×10^1+2×10^0+3×10^{-1}+4×10^{-2}=12\frac{34}{100}$

二进制表示： $b=b_mb_{m-1}···b_1b_0.b_{-1}b_{-2}···b_{-n}=\sum^m_{i=-n}2^i×b_i,{\space}b_i = \{0,1\}$

$101.11_2=1×2^2+0×2^1+1×2^0+1×2^{-1}+1×2^{-2}=4+0+1+\frac{1}{2}+\frac{1}{4}=5\frac{3}{4}$

二进制小数点向左移动一位相当于这个数被 2 除；
二进制小数点向右移动一位相当于这个数乘 2；

形如 $0.11···1_2$ 的数表示的是刚好小于 1 的数，可以简单表示为 $1.0-\epsilon$ ，然而必须考虑有限长度的编码，小数的二进制表示法只能精确表示那些能够被写成 $x×2^y$ 的数，其他值只能够被近似的表示。所以增加编码长度可以增加表达的精度。

表示	值	十进制	表示	值	十进制
$0.0_2$	$\frac{0}{2}$	0.0	$0.00110_2$	$\frac{6}{32}$	0.1875
$0.01_2$	$\frac{1}{4}$	0.25	$0.001101_2$	$\frac{13}{64}$	0.203125
$0.010_2$	$\frac{2}{8}$	0.25	$0.0011010_2$	$\frac{26}{128}$	0.203125
$0.0011_2$	$\frac{3}{16}$	0.1875	$0.00110011_2$	$\frac{51}{256}$	0.19921875

2.4.2 IEEE 浮点表示

IEEE 浮点标准用 ** $V=(-1)^s×M×2^E$ ** 的形式来表示一个数：

符号	名称	位表示	解释
$s$	符号	一个单独的符号位	决定这数是负数( $s = 1$ )还是正数( $s = 0$ ); 而对于数值 0 的符号位解释作为特殊情况处理。
$M$	尾数	$n$ 位小数字段 $\text{frac}=f_{n-1}···f_1f_0$	$M$ 是一个二进制小数，范围是 1~2- $\epsilon$ ，或者 0~1- $\epsilon$ 。
$E$	阶码	$k$ 位阶码字段 $\text{exp}=e_{k-1}···e_1e_0$	$E$ 对 $M$ 加权，权重是 2 的 $E$ 次幂(可能是负数)。

单精度 $f l o a t$ 浮点格式： $s=1,{\space}k=8,{\space}n=23$ 得到一个 32 位的表示；

双精度 $d o u b l e$ 浮点格式： $s=1,{\space}k=11,{\space}n=52$ 得到一个 64 位的表示；

根据 exp 的值，被编码值分为三种不同的情况：

情况1：规格化的值：当 exp 的位模式不全为 0 或 1 时

最普遍的情况。

阶码字段 exp 解释为以偏置形式表示的有符号整数： $E = e - B i a s$ ，其中：

$e$ 的位表示为 $e_{k-1}···e_1e_0$ ；
$Bias = 2^{k-1}-1$ （单精度是 $127$ ，双精度是 $1023$ ）
范围：单精度是 $- 126$ ~ $+ 127$ ，双精度是 $- 1022$ ~ $+ 1023$ .

小数字段 frac 被解释为描述小数值 $f (0 \leq f < 1)$ ，其二进制表示为 $0.f_{n-1}···f_1f_0$ ：

由于第一位总是等于1，所以可以隐式的表示它：尾数 $M = 1+f = 1.f_{n-1}···f_1f_0$ .

情况2：非规格化的值：当 exp 的位模式全为 0 时

阶码 $E = 1 - B i a s$

尾数 $M = f$ ，也就是小数字段 $f r a c frac$ 的值，不包含隐含的开头的 1。

非规格化数的两个用途：

提供一种表示数值 0 的方法。
因为在规格数下， $M \geq 1$ ，因此不能表示 0。
+0.0 的浮点表示的位模式为全 0；
-0.0 的浮点表示的位模式除了符号位 s 为 1，其他全为 0 。
表示那些非常接近于 0.0 的数，它们提供了一种属性：逐渐溢出，可能的数值分布均匀地接近于 0.0。

情况3：特殊值：当 exp 的位模式全为 1 时

当小数字段全为 0 时，得到的值表示无穷：

当 $s = 0$ 时，是正无穷；
当 $s = 1$ 时，是负无穷；

当小数字段不全为 0 时，得到的值称为 $N a N$ ，不是一个数（Not a Number），如计算 $\sqrt{-1},∞-∞$ 。

一般性归纳

描述	exp	frac	$V=M×2^E$	单精度k=8,n=23	双精度k=11,n=52
0	00···00	0···00	0	0	0
最小非规格化数	00···00	0···01	$M=f=2^{-n}$ $E=-2^{k-1}+2$ $V=2^{-n}×2^{-2^{k-1}+2}$	$2^{-23}×2^{-126}$	$2^{-52}×2^{-1022}$
最大非规格化数	00···00	1···11	$M=f=1-2^{-n}=1-\epsilon$ $E=-2^{k-1}+2$ $V=(1-\epsilon)×2^{-2^{k-1}+2}$	$(1-\epsilon)×2^{-126}$	$(1-\epsilon)×2^{-1022}$
最小规格化数	00···01	0···00	$M = 1$ $E=-2^{k-1}+2$ $V=1×2^{-2^{k-1}+2}$	$1×2^{-126}$	$1×2^{-1022}$
1	01···11	0···00	$M = 1$ $E = 0$ $V=1×2^0=1$	$1×2^0$	$1×2^0$
最大规格化数	11···10	1···11	$M=1+f=1+1-2^{-n}$ $=2-2^{-n}=2-\epsilon$ $E=2^{k-1}-1$ $V=(2-2^{-n})×2^{-2^{k-1}-1}$ $=(2-\epsilon)×2^{-2^{k-1}-1}$	$(2-\epsilon)×2^{127}$	$(2-\epsilon)×2^{1023}$

值 $+ 0.0$ 总有一个全为 0 的位表示。
最小的正非规格化值的位表示：

示例：8 位浮点格式的非赋值（k=3, n=3）

描述	位表示	指数			小数		值
		$e$	$E$	$2^E$	$f$	$M$	$2^E×M$	$V$	十进制
0	0 0000 000	0	-6	$\frac{1}{64}$	$\frac{0}{8}$	$\frac{0}{8}$	$\frac{0}{512}$	0	0.0
最小的非规格化数	0 0000 001	0	-6	$\frac{1}{64}$	$\frac{1}{8}$	$\frac{1}{8}$	$\frac{1}{512}$	$\frac{1}{512}$	0.001953
	0 0000 010	0	-6	$\frac{1}{64}$	$\frac{2}{8}$	$\frac{2}{8}$	$\frac{2}{512}$	$\frac{1}{256}$	0.003906
	0 0000 011	0	-6	$\frac{1}{64}$	$\frac{3}{8}$	$\frac{3}{8}$	$\frac{3}{512}$	$\frac{3}{512}$	0.005859
……	……	……	……	……	……	……	……	……	……
最大的非规格化数	0 0000 111	0	-6	$\frac{1}{64}$	$\frac{7}{8}$	$\frac{7}{8}$	$\frac{7}{512}$	$\frac{7}{512}$	0.013672
最小的规格化数	0 0001 000	1	-6	$\frac{1}{64}$	$\frac{0}{8}$	$\frac{8}{8}$	$\frac{8}{512}$	$\frac{1}{64}$	0.015625
	0 0001 001	1	-6	$\frac{1}{64}$	$\frac{1}{8}$	$\frac{9}{8}$	$\frac{9}{512}$	$\frac{9}{512}$	0.017578
……	……	……	……	……	……	……	……	……	……
	0 0110 110	6	-1	$\frac{1}{2}$	$\frac{6}{8}$	$\frac{14}{8}$	$\frac{14}{16}$	$\frac{7}{8}$	0.875
	0 0110 111	6	-1	$\frac{1}{2}$	$\frac{7}{8}$	$\frac{15}{8}$	$\frac{15}{16}$	$\frac{15}{16}$	0.9375
1	0 0111 000	7	0	1	$\frac{0}{8}$	$\frac{8}{8}$	$\frac{8}{8}$	$1$	1.0
	0 0111 001	7	0	1	$\frac{1}{8}$	$\frac{9}{8}$	$\frac{9}{8}$	$\frac{9}{8}$	1.125
	0 0111 010	7	0	1	$\frac{2}{8}$	$\frac{10}{8}$	$\frac{10}{8}$	$\frac{5}{4}$	1.25
……	……	……	……	……	……	……	……	……	……
	0 1110 110	14	7	128	$\frac{6}{8}$	$\frac{14}{8}$	$\frac{1792}{8}$	224	224.0
最大的规格化数	0 1110 111	14	7	128	$\frac{7}{8}$	$\frac{15}{8}$	$\frac{1920}{8}$	240	240.0
无穷大	0 1111 000	——	——	——	——	——	——	$\infty$	——

最大非规格化数 $\frac{7}{512}$ 和最小规格化数 $\frac{8}{512}$ 之间的转变是平滑的，这归功于对非规格化数的 $E$ 的定义：通过将 $E$ 定义为 $1 - B i a s$ ，而不是 $- B i a s$ ，我们可以补偿非规格化数的尾数没有隐含的开头的1。
通过增加阶码，可以获得更大的规格化值，通过 1.0 后得到最大的规格化数，其 $E = 7$ ，得到一个权 $2^E=128$ ，小数等于 $\frac{7}{8}$ 得到尾数 $M=\frac{15}{8}$ 。此时，数值 $V = 240$ ，再增加阶码，就会溢出到 $+ \infty$ 。
将上表“位表示”一列解释为无符号整数，它们是升序排列的，就像它们表示的浮点数一样。IEEE 格式如此设计就是为了浮点数能够使用整数排序函数来进行排序。
- 然而处理负数时，因为它们第一位是1，且是按照降序出现。……（？）

练习：整数值转换成浮点数

整数：12345
二进制表示：[11000000111001]
将二进制小数点左移13位： $1.1000000111001_2×2^{13}$
用 IEEE 单精度形式编码：丢弃开头的1，并且在末尾增加 23-13=10 个 0 来构造小数字段 frac，得到 [10000001110010000000000]
构造阶码字段 exp ：13 加偏置量127等于140，二进制表示为 [10001100]
加上符号位 0，最后结果：[0100 0110 0100 0000 1110 0100 0000 0000]

2.4.3 舍入

IEEE 浮点格式定义了四种不同的舍入方式，默认方式是：向偶数舍入，其他三种可用于计算上界和下界。

方式	1.40	1.60	1.50	2.50	-1.50
向偶数舍入	1	2	2	2	-2
向零舍入	1	1	1	2	-1
向下舍入	1	1	1	2	-2
向上舍入	2	2	2	3	-1

向偶数舍入：将数字向上或者向下舍入：

首先，遵从向最接近的值舍入原则；
然后，到上下界距离相等时，也即比保留位低一级的位值为 5，此时遵从使结果的最低有效数字是偶数。（1.5 和 2.5 都舍入成 2）

为什么用向偶数舍入？

可以避免统计偏差。

2.4.4 浮点运算

1、浮点数加法

浮点数加法不具有结合性，不同的结合可能会产生不同的值，产生一定的差异！！！

因此，编译器倾向于保守，避免任何对功能产生影响的优化。

浮点数加法满足单调性：

如果 $a \geq b$ ，那么对于任何 $a 、 b$ 以及 $x$ 的值，除了 $N a N$ ，都有 $x + a \geq x + b$ 。
补充：无符号或补码加法不具有单调性属性。

2、浮点数乘法

浮点数乘法是封闭的（虽然可能产生无穷大或 $N a N$ ），是可交换的。

浮点数乘法也不具有结合性：因为可能会发生溢出，或者舍入而失去精度。

单精度浮点情况下： $(1 e 20 * 1 e 20) * 1 e - 20 = + \infty$ ，然而 $1 e 20 * (1 e 20 * 1 e - 20) = 1 e 20$

浮点数乘法也不具有分配性：

单精度浮点情况下： $1 e 20 * (1 e 20 - 1 e 20) = 0.0$ ，然而 $1 e 20 * 1 e 20 - 1 e 20 * 1 e 20) = N a N$

浮点数乘法满足单调性：

对于任何 $a 、 b$ 和 $c$ ，并且 $a 、 b$ 和 $c$ 都不等于 $N a N$ ，则 $\begin{cases}a≥b\text{且}c≥0{\space}{\space}⇒{\space}{\space}a*^{\text{f}}c≥b*^{\text{f}}c\\a≥b\text{且}c≤0{\space}{\space}⇒{\space}{\space}a*^{\text{f}}c≤b*^{\text{f}}c\end{cases}$
只要 $a \neq = N a N$ ，就有 $a*^{\text{f}}a≥0$
补充：无符号或补码乘法不具有单调性属性。

2.4.5 C 语言中的浮点数

在 int、float 和 double 格式之间进行强制类型转换时，程序改变数值和位模式的原则如下（设 int 是32位）：

从 int 到 float ，数字不会溢出，但是可能被舍入，因为小数字段 frac 只有23位长。
从 int 或 float 转换到 double，因为 double 有更大的范围，也有更高的进度，所以能够保留精确的数值。
从 double 转换到 float，因为 float 表示的范围要小一些，值可能溢出成 $+ \infty$ 或 $- \infty$ ；且精度也较小，还可能被舍入。
从 float 或 double 转换到 int，值将会向零舍入为整数，如1.999 转换成 1。
值可能会溢出：但C 语言没有对这一情况指定固定的结果。

与 Intel 兼容的微处理器指定位模式 [10···00] (字长为 $w$ 时的 $TMin_w$ ) 为整数不确定值。
一个浮点数到整数的转换，如果不能为浮点数找到一个合理的整数近似值，就会产生这样一个值。
例如：表达式 (int)+1e10 会得到 -21483648，即从一个正值变成了一个负值。

【注意】将大的浮点数转换成整数是一种常见的程序错误来源。