Char转为int时高位符号扩展的问题

最新推荐文章于 2022-05-27 14:40:41 发布

「已注销」

最新推荐文章于 2022-05-27 14:40:41 发布

阅读量2.8k

点赞数

分类专栏：小题目整理

小题目整理专栏收录该内容

96 篇文章 1 订阅

订阅专栏

代码示例:

static get_utili(constchar*p){intutil;…while(isspace((int)*p))//跳过空格++p;util=(int)*p++;…}

现象&后果:

当传入的参数p指向的内容为0x9A、0XAB等内容(最高位为1)时，得到的int型变量util的值将会出错，因为char会进行符号扩展，使得0x9A(十进制的154)变成了-102。会造成程序运行时的数据处理错误。

Bug分析:

char符号扩展是与编译器相关的，但在x86平台上，对于任何主流的编译平台，char总是进行符号扩展的。上述代码在将char型的*p赋给int型变量util的时候，需要先进行char型到unsignedchar型的转换，以避免按照char的最高位进行符号扩展。

上述出错代码的符号扩展过程如下：

因为要扩展的短数据类型为有符号数的-- char x=10011100b（即0x9A）

因而在inty=(int)x时--进行符号扩展，即短数据类型的符号位填充到长数据类型的高字节位（比短数据类型多出的那一部分），则y的值为1111111110011100b(变成了十进制的-102)；

但是，将要扩展的短数据类型变成无符号数后--unsigned char x=10011100b（即0x9A）

在 int y=(int)x时--进行扩展的时候是以零扩展，即用零来填充长数据类型的高字节位，则y的值应为0000000010011100b(十进制的154)。

正确代码:

util=(int)*p++;改成util=(int)(unsigned char)*p++

Bug定位:

该bug是在code review的过程中发现的。

char符号扩展的问题，如果在测试时没有构造相应的case，就会很难被发现。面对这类问题，细致的codereview是必不可少的，不管是通过code review直接发现问题还是通过review来丰富相应case的构造，codereview都应该是一个不可缺少的环节。

关于符号扩展

一、短数据类型扩展为长数据类型

1、要扩展的短数据类型为有符号数的

进行符号扩展，即短数据类型的符号位填充到长数据类型的高字节位（即比短数据类型多出的那一部分），保证扩展后的数值大小不变

如1：charx=10001001b; shorty=x; 则y的值应为11111111 10001001b；

2：charx=00001001b; shorty=x; 则y的值应为00000000 00001001b；

2、要扩展的短数据类型为无符号数的

进行零扩展，即用零来填充长数据类型的高字节位

如1：unsigned charx=10001001b; shorty=x; 则y的值应为00000000 10001001b；

2：unsigned charx=00001001b; shorty=x; 则y的值应为00000000 00001001b；

二、长数据类型缩减为短数据类型

如果长数据类型的高字节全为1或全为0，则会直接截取低字节赋给短数据类型；如果长数据类型的高字节不全为1或不全为0，则转会就会发生错误。

三、同一长度的数据类型中有符号数与无符号数的相互转化

直接将内存中的数据赋给要转化的类型，数值大小则会发生变化。另短类型扩展为长类型时，但短类型与长类型分属有符号数与无符号数时，则先按规则一进行类型的扩展，再按本规则直接将内存中的数值原封不动的赋给对方。

附：有符号数的转换

从	到	方法
char	short	符号位扩展
char	long	符号位扩展
char	unsignedchar	最高位失去符号位意义，变为数据位
char	unsignedshort	符号位扩展到short;然后从short转到 unsigned short
char	unsignedlong	符号位扩展到long; 然后从long 转到unsigned long
char	float	符号位扩展到long; 然后从long 转到float
char	double	符号位扩展到long; 然后从long 转到double
char	longdouble	符号位扩展到long; 然后从long 转到longdouble
short	char	保留低位字节
short	long	符号位扩展
short	unsignedchar	保留低位字节
short	unsignedshort	最高位失去符号位意义，变为数据位
short	unsignedlong	符号位扩展到long; 然后从long转到unsigned double
short	float	符号位扩展到long; 然后从long 转到float
short	double	符号位扩展到long; 然后从long 转到double
short	longdouble	符号位扩展到long; 然后从long 转到double
long	char	保留低位字节
long	short	保留低位字节
long	unsignedchar	保留低位字节
long	unsignedshort	保留低位字节
long	unsignedlong	最高位失去符号位意义，变为数据位
long	Float	使用单精度浮点数表示。可能丢失精度。
long	double	使用双精度浮点数表示。可能丢失精度。
long	longdouble	使用双精度浮点数表示。可能丢失精度。

无符号数的转换

从	到	方法
unsignedchar	char	最高位作为符号位
unsignedchar	short	0扩展
unsignedchar	long	0扩展
unsignedchar	unsignedshort	0扩展
unsignedchar	unsignedlong	0扩展
unsignedchar	float	转换到long;再从 long 转换到float
unsignedchar	double	转换到long;再从 long 转换到double
unsignedchar	longdouble	转换到long;再从 long 转换到double
unsignedshort	char	保留低位字节
unsignedshort	short	最高位作为符号位
unsignedshort	long	0扩展
unsignedshort	unsignedchar	保留低位字节
unsignedshort	unsignedlong	0扩展
unsignedshort	float	转换到long;再从 long 转换到float
unsignedshort	double	转换到long;再从 long 转换到double
unsignedshort	longdouble	转换到long;再从 long 转换到double
unsignedlong	char	保留低位字节
unsignedlong	short	保留低位字节
unsignedlong	long	最高位作为符号位
unsignedlong	unsignedchar	保留低位字节
unsignedlong	unsignedshort	保留低位字节
unsignedlong	float	转换到long;再从 long 转换到float
unsignedlong	double	Convertdirectly to double
unsignedlong	longdouble	转换到long;再从 long 转换到double

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

符号扩展，零扩展，以及缩减

数现代高级程序设计语言允许程序员使用包含不同大小的整数对象的表达式。那么，当一个表达式的两个操作数大小不同的时候，会发生什么呢？有些语言会报错，而其他的语言则会自动将操作数转换成一个统一的格式。这种转换是有代价的，因此，如果你不希望编译器在你不知情的情况下自动加入各种转换到你原本非常完美的代码中，就需要掌握编译器是如何处理这些表达式的。

进制补码系统中，同一个负数在不同大小的表示法中的表示是不同的。你不能在一个包含16位数的表达式中随意地使用8位有符号数，转换是必需的。这种转换，以及其逆操作（将16位数转换为8位）就是符号扩展（signextension）与缩减（contraction）操作。

-64为例，其8位的二进制补码表示是$C0，而等效的16位二进制补码表示则是$FFC0。很显然，其位模式不一样。再看看数+64，其8位和16位表示分别是$40与$0040。一个很显然的事实就是，扩展负数的大小与扩展非负数的大小是完全不同的。

个数从某个位数符号扩展到一个更大的位数很简单，只需要将符号位复制到新格式新增的高端各位即可，例如，为了将一个8位的数符号扩展到16位，只需将8位数的第7位复制到16位数的第8.. 15位即可。而将一个16位数符号扩展到一个双字，只需要将第15位复制到双字的第16 .. 31位即可。

理不同长度有符号数的时候，必须使用符号扩展。例如，在将一个字节量与一个字量相加的时候，在相加之前必须将字节量符号扩展到16位。其他运算可能又会需要符号扩展到32位。

表2-5 符号扩展举例

8位	16位	32位	二进制补码表示
$80	$FF80	$FFFF_FF80	11_1111_1111_1111_1111_1111_1000_0000
$28	$0028	$0000_0028	00_0000_0000_0000_0000_0000_0010_1000
$9A	$FF9A	$FFFF_FF9A	11_1111_1111_1111_1111_1111_1001_1010
$7F	$007F	$0000_007F	00_0000_0000_0000_0000_0000_0111_1111
n/a	$1020	$0000_1020	00_0000_0000_0000_0001_0000_0010_0000
n/a	$8086	$FFFF_8086	11_1111_1111_1111_1000_0000_1000_0110

处理无符号二进制数的时候，可以使用零扩展（zero extension）来将小位数的无符号数扩展到大位数的无符号数。零扩展非常简单——只需要用零来填充大位数操作数的高端各个字节即可。例如，为了将8位数$82零扩展到16位，只需要在高端字节中插入零，即得到$0082。

表2-6 零扩展举例

8位	16位	32位	二进制补码表示
$80	$0080	$0000_0080	00_0000_0000_0000_0000_0000_1000_0000
$28	$0028	$0000_0028	00_0000_0000_0000_0000_0000_0010_1000
$9A	$009A	$0000_009A	00_0000_0000_0000_0000_0000_1001_1010
$7F	$007F	$0000_007F	00_0000_0000_0000_0000_0000_0111_1111
n/a	$1020	$0000_1020	00_0000_0000_0000_0001_0000_0010_0000
n/a	$8086	$0000_8086	00_0000_0000_0000_1000_0000_1000_0110

大多数高级语言编译器会自动处理符号扩展与零扩展，以下C语言的例子说明了它们是如何工作的：

signed char sbyte; //C语言中的字符类型是一个字节

short intsword; //C语言中的短整型一般是16位

long intsdword; //C语言中的长整型一般是32位

. . .

sword = sbyte; //自动将8位值符号扩展到16位

sdword =sbyte; //自动将8位值符号扩展到32位

sdword =sword; //自动将16位值符号扩展到32位

语言（例如Ada）在从小数据类型转换到大数据类型时需要显式转换（explicit cast）。查一下所用语言的参考手册就知道这种显式转换是不是必需的了。要求提供显式转换的语言的优点在于编译器永远不会在程序员不知情的情况下做任何事情。如果你没有提供必要的转换，编译器会给出一个诊断消息，让你知道程序还需要改进。

符号扩展和零扩展，有一点需要明确的是，它们是需要付出代价的。将一个小整型赋值给一个大整型可能会比在同样大小的整型变量间传输数据需要更多的机器指令（执行时间更长）。因此，在一个数学表达式或者一条赋值语句中混合使用不同大小的变量要小心。

符号缩减，即将一个某位数转换为值相同但位数变小的数，比较麻烦。符号扩展永远不会失败，使用符号扩展，一个m位有符号数永远可以转换为一个n位数（这里n>m）。不幸的是，在m的情况下，一个n位数不是总能转换为m位数。例如，-448的16位十六进制表示是$FE40，而这个数的大小对于8位来说太大了，我们无法将其符号缩减到8位。