起因
今天敲代码想获取一下 linux 系统的环境变量。拍脑袋瓜一想,平常char *argv[], char **argv都写过啊。于是乎,就写了一个extern char *environ[];
#include <stdio.h>
#include <stdlib.h>
//extern char *environ[];
extern char **environ;
int main(int argc, char *argv[])
{
int i = 0;
while (environ[i])
{
printf("%d:%s\n", i, environ[i]);
++i;
}
return 0;
}
结果并不好使,打印了一堆乱码。还是老老实实用 man 文档里的标准写法 char **environ
然后就好使了。但是这两者之间,到底有什么区别呢?
思考
两种定义方式不都可以用下标运算吗?感觉用法上也没有什么区别啊?比如以下代码就可以正常运行:
#include <stdio.h>
int main()
{
int i;
char *a[] = {"hello", "world"};
char **b = a;
for (i = 0; i < 2; ++i)
printf("%s\n", a[i]);
for (i = 0; i < 2; ++i)
printf("%s\n", b[i]);
return 0;
}
为了好好理解 char ** 与 char *[] 的区别,不得不先考虑 char* 与 char []
char * 与 char []
首先,data.c 文件中定义了两个变量,分别是 char* 和 char [] 类型:
char *a = "ABCDEF";
char b[] = "ABCDEF";
然后在 main1.c 中将他们都当作 char [] 类型,在 main2.c 中则全当成 char*
// main1.c
#include <stdio.h>
extern char a[];
extern char b[];
int main()
{
printf("%s\n", a);
printf("%s\n", b);
return 0;
}
// main2.c
#include <stdio.h>
extern char *a;
extern char *b;
int main()
{
printf("%s\n", a);
printf("%s\n", b);
return 0;
}
假如这两种类型没有任何区别,那么 main1.c 和 main2.c 两个文件都将正确输出字符串的内容。
main1.c 中的情况
程序运行的结果是 a 输出了乱码,b 正常输出了字符串 “ABCDEF”。b 正常输出很显然,但为什么 a 输出了乱码呢?
回忆一下数组的概念,数组是顺序存储的,变量 b 在内存中大概是这样的(一个字符占用一个字节):
而 a 应该是这样的,4 字节表示一个指针。(注意这里是原始的 char *a 和 char b[]):
如果把 a 当成字符数组来解释,那么试图将 a[0] 读作一个 char 的时候,就有问题了。因为这四个字节存的并不是字符的数据, a[0] 实际取了一个 32 位地址的高八位(小端模式下)。 因此会打印出奇怪的东西。而实际的字符串存在哪呢?存在这个32位地址下。如图:
既然 a 没有直接存字符串的数据,把 a 解引用一下不就可以了吗?编程验证一下:
#include <stdio.h>
extern char a[];
extern char b[];
int main()
{
printf("%p\n", (void*)a); // 00402004
printf("%p\n", (void*)b); // 00402008
char *cptr = *(char **)a;
printf("%p\n", (void*)cptr); // 00403028
printf("%s\n", a); // 28 -> ( 30-> 0 34 -> @
printf("%s\n", cptr);
printf("%s\n", b);
return 0;
}
程序的输出结果如下,发现将 a 解引用可正常输出字符串。而 a 直接使用的话,确实会把一个地址读作 4 个字符。按小端模式,高地址的 0 被解释成 \0,整个字符串正好是 (0@
main2.c 中的情况
程序运行结果是 a 正常输出,然后 b 无法输出,程序异常退出。弄清楚 main1.c 之后,这里就好理解了。a 类型正确,结果也正常。而 b 中存的字符串数据,被解释成一个不合法的地址,自然会出现非法访问内存的错误。
回到原问题 char ** 与 char *argv[]
本来是 char ** 解引用之后才能得到第一个 char* ,如果直接当成 char*[] 使用,则会直接把自身当成第一个 char*, 一个字符串指针的地址,怎么会是字符串的地址呢?
小结
- 对于内存而言,它存的就是 0 和 1 而已,而这些数据如何解释,靠的是类型。为什么 c 可以强制类型转换?它没有改变数据本身,只是改变了对数据的理解方式。
- 定义和声明一定要类型相同
- char **argv 和 char *argv[] 当然不等价,只是因为它们都是形参,都被编译器解释成了 char **
- 虽然指针和数组都可以使用下标运算符,但区别在于指针会先进行解引用