关于内存地址需要对齐的问题

最新推荐文章于 2024-06-04 10:03:01 发布

沧海一庶

最新推荐文章于 2024-06-04 10:03:01 发布

阅读量2.1k

点赞数

分类专栏： linux驱动开发文章标签：编译器汇编嵌入式 struct optimization 平台

linux驱动开发专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近有个项目，调试过程中出现了“不可思议的现象”，在PC上调试完全正确，移植到ARM平台发现居然出错，报错"segment fault".比较郁闷，调试了将近两天，才终于跟踪到，发现居然是因为内存地址没有对齐，导致读取数据发生高16位和低16位发生对换，所以为了更好的记住这个教训，特意到网上搜索相关地址不对齐的解释，现摘录如下：

ARM程序由于字节对齐引起的问题深入分析

2007-10-27 14:53

首先说说，什么叫对齐。如果一个数据是从偶地址开始的连续存储，那么它就是半字对齐，否则就是非半字对齐；半字对齐的特征是bit0=0,其他位为任意值。字对齐的特征是bit1=0,bit0=1,其他位为任意值。如果一个数据是以能被4 整除的地址开始的连续存储，那么它就是字对齐，否则就是非字对齐。举例说明四字节对齐：对内存进行操作时，被访问的地址必须为4的倍数。如果分配到的地址的地址不是4的倍数时，CPU实际访问的地址还是按照字对齐的方式来操作。也就是自动屏蔽bit1和bit0.

用ADS的ARM C Complier下Optimization Level可能引起问题，其中的一个问题就是字节对齐的问题。下面讲讲问题的现象及实质。

当时问题的现象是：程序使用一公共变量Buf创建队列，如果ADS编译优化选项采用Minium则软件工作正常；源码不变，如果采用ALL优化，则不正常，数据紊乱且无法工作。为了发现问题，我们分别用Minium和ALL编译，在反汇编条件下单步跟踪程序，观察CPU寄存器和内存变量的变化情况。发现在Minium模式下，编译器把队列内存块Uart0TxBuf分配到的地址是0x400015cc,这个地址是一个4字节对齐的地址，而在ALL模式下，编译器把Buf分配的地址是0x400015c2，这个地址是一个非4字节对齐的地址。正是由于这个非4字节对齐的地址导致了问题的发生。
问题发生在QueueCreate(void *Buf, uint32 SizeOfBuf, uint8 (* ReadEmpty)(), uint8 (* WriteFull)())这个函数里，问题是如何发生的，

    在了解问题发生的机理前，先了解QueueCreate这个函数的工作原理。QueueCreate工作原理是，首先把buf指向的内存初始化为DataQueue格式的结构体。   DataQueue的结构体格式如下：
typedef struct {
     QUEUE_DATA_TYPE     *Out;            /* 指向数据输出位置        */
     QUEUE_DATA_TYPE     *In;             /* 指向数据输入位置        */
     QUEUE_DATA_TYPE     *End;            /* 指向Buf的结束位置       */
     uint16               NData;          /* 队列中数据个数          */
     uint16               MaxData;        /* 队列中允许存储的数据个数 */

     uint8               (* ReadEmpty)(); /* 读空处理函数           */
     uint8               (* WriteFull)(); /* 写满处理函数           */
     QUEUE_DATA_TYPE     *Buf;            /* 存储数据的空间         */
} DataQueue;
从结构体可以看出，结构体字节类型在内存分配为： 4字节指针变量（*Out）、4字节指针变量（*In）、4字节指针变量（*End）、2字节变量NData、2字节变量MaxData、4字节函数指针变量ReadEmpty（）、4字节函数指针变量（WriteFull（））
    观察结构体起始地址放在非对齐时会出现什么情况。

           起始地址为0x400015c2时的由编译器分配得到的地址          实际操作地址
*Out        0x400015c2~0x400015c5                                                 0x40015c0~0x400015c3
*In          0x400014c6~0x400015c9                                                  x400014c4~0x400015c7
*End       0x400015ca~0x400015cd                                                0x400015c8~0x400015cb
从表中可以看出，实际操作的地址按照4字节对齐格式得到。例如，当执行*Out进行操作时，自动屏蔽bit1和bit0,因此实际发生变化的是0x40015c0~0x400015c3，而不是0x400015c2~0x400015c5，由于实际操作地址和编译器分配地址互相覆盖，当对*In操作时，会导致*Out一起变化，对*End操作时，*In也跟着变化。正是由于非对齐的原因导致创建队列和对列操作完全错误。
      当内存起始地址为4字节对齐地址的情况时，编译器分配地址和实际地址一致，因此不存在上述问题。

结论：

在ARM嵌入式系统中，当把一个内存区域初始化为某个结构体时，必须注意字节对齐的情况。如果该内存起始地址为非对齐地址，不仅得不到预期的结果，还可能导致一些很奇怪的让人无法理解表面问题。在C层面上不太容易观察到这些问题的实质，只有深入到汇编一层去分析程序，才可能理解这些现象的深层原因

----------------------------------------------------------------------------------------------------------------------------------------

转：ARM平台的地址对齐问题

(2010-03-12 17:22:08)

转载

标签：

杂谈

分类：嵌入式汇编、C语言

http://blog.chinaunix.net/u1/58640/showart_515769.html

前言

ARM流行已久，做嵌入式开发的不知道ARM不大可能。鉴于其所具备的较低功耗下的较高性能，也就成了大多数嵌入式设备的首选了。

不过对于刚上手的人来说，有可能会遇到一些稀奇古怪的问题。毕竟大部分人都习惯了IA-32下的程序设计，虽然两者都是32位的处理器，但是体系架构完全不同，于是也导致了一些隐含的问题。这里想描述一下一个有点蛊惑的问题，即在ARM上访问非对齐地址内容，会出现所谓“不可预料”结果的问题。

ARM内存访问的对齐问题

按照ARM文档上的描述，其访问规则如下：

1. 一次访问4字节内容，该内容的起始地址必须是4字节对齐的位置上；

2. 一次访问2字节内容，该内容的起始地址必须是2字节对齐的位置上；

（单字节的没有这个问题，就不用考虑啦。）

好，既然规则如此，那应该遵守。不过么，不安分的人往往喜欢破坏规则，喜欢看看不遵守规则会有什么结果；另外么，即便遵规蹈距的人，有时也难免考虑不周，犯个错也是正常现象。好，那么让我们来看看犯错的结果吧。例如下面的代码：

char buff[8] = {0x12, 0x34, 0x56, 0x78, 0x9a, 0xab, 0xbc, 0xcd};

int v32, *p32;

short v16, *p16;

p32 = (int*)&( buff[1] ); //unalignment

p16 = (short*)&( buff[1] ); //unalignment

v32 = *p32; //what’s the result?

v16 = *p16; //what’s the result?

如果上面这段代码在IA-32上运行，那么结果应该如下：

v32 = 0x9a785634

v16 = 0x5634

即便非对齐地址上访问，IA-32也就是牺牲一点性能，但是结果保证是正确的。恩，这也是我们所期望的……

可是…… 换到ARM上呢？我们来看看在ADS1.2编译后，执行的结果如下：

v32 = 0x12785634

v16 = 0x1234

这个结果有点奇怪了吧。照理说指向0x34，那么如果是Big-Endian的话，v32应该是0x3456789a，如果是Little-Endian的话，就是前面IA-32的结果。可现在的结果呢？两者都不是，莫名地把更低地址的0x12给凑进来了…… 而如果看看编译生成的汇编code的话，这两个赋值很简单，分别用了ldr和ldrsh指令，指令没有问题，分别用于读取32位和16位数据，都是最基本的指令。嗯，嗯，这就是我们所要描述的访问非对齐地址的问题了。

来源：(http://blog.sina.com.cn/s/blog_63a67e2e0100hwah.html) - 转：ARM平台的地址对齐问题_月光疾风_新浪博客

问题的缘由（个人猜测，非官方资料……）

个人感觉呢，这是ARM体系架构实现的问题，或者说这本来就是By Design的。这样做简化了处理器的实现，IA-32实现的时候肯定会对读取地址是否对齐进行判断，然后转换为相应的操作，而ARM呢？没有做这个事情，默认认为大家都按照规矩办事，你要是胆敢破坏，俺就给你好看~~~

那有没有办法解决呢？

这个问题其实ARM自己也知道，所以呢，它在编译器里面，已经添加了部分支持。不过有人会问，那上面那个情况呢？为什么结果还是不对呢？好像没有添加什么支持嘛……

嗯，其实ARM是做了一定的努力的，只是这个情况它没办法解决…… 它做的事情就是：在编译器能够的得知的情况下，尽量保证访问内容的正确。这句话有点笼统，那么把具体情况一个个来看看吧。

编译器的努力（1）—— 所有局部/全局/静态等变量都放在4字节对齐的地址上

其实这个努力很常见，由于在32位平台上，一次访问4字节是效率最高的，所以大多数32平台的编译器都如此处理，ARM的ADS也不例外。

编译器的努力（2）—— 填充、填充、再填充

这个事情么，其实也是常见的。各类编译器上，对于某些结构定义中会产生不对齐的情况，自动填充，以提高访问效率（例如IA-32上访问非对齐的，会加1个周期的）。而ARM的编译器也一样操作，不过感觉这里不单单是为了提高效率，也能够顺带解决这个不对齐的问题。

编译器的努力（3）—— 产生特殊代码

嗯，这个就是关键了，也是ARM编译器的与众不同之处。先来看一段代码：

__packed typedef struct _test
{

char a;

short c;
int d;
} test;

char buff[8] = {0x12, 0x34, 0x56, 0x78, 0x9a, 0xab, 0xbc, 0xcd};

test *p = (test *)buff;

v32 = p->d; //这里的v32借用上面的定义；

貌似多了个限定为__packed的struct，以此来造成不对齐的状况，看不出多大区别嘛。可是运行一下的话，就会发现这里的结果是正确的。我们来看看ADS生成的汇编代码吧。

      v32 = q->d;
[0xe2890003]     add        r0,r9,#3
[0xeb000088]     bl         __rt_uread4
[0xe1a05000]     mov        r5,r0

看到这里的那条"bl __rt_uread4"的指令了吧。对ARM指令有一定了解的都知道bl其实就是一个函数调用。所以，这里的代码其实是调用了ADS自己提供的__rt_uread4函数，该函数完成的操作就是读取四个字节。ADS提供了类似的一系列函数，针对signed/unsigned，以及4字节/2字节的读取/写入操作。

估计看到这里，大家会问，如果没有__packed限定符呢？猜对了，没有__packed限定符，那么编译器会对上面的情况pending，所以这个struct里面的d所在的位置是4字节对齐的（编译期信息，而非实际运行期信息）。所以就回到类似最初的例子了。

那么，还有一种情况，就是在有__packed的情况下，而struct里的字段都是符合对齐要求的，那么生成的代码会是怎么样的呢？从实际生成的代码来看，和上面的这段汇编代码，唯一的区别就是第一条指令把#3改成了#4，而后面仍旧调用__rt_uread4函数。嗯，这样结论就出来了：

编译器会在使用__packed的情况下，自动对其中的4字节/2字节访问添加特殊代码，以保证其结果的正确。

好了，这个关于这个问题描述得差不多了，可能的话，尽量倚赖编译器的这些功能，而对于编译器无能为力的部分，就要靠万分小心了……

p.s. 其实这里有很多事情可以来尽量预防此类问题，比如嵌入式项目往往喜欢自己管理内存分配，那么自己写的内存分配函数就保证返回的地址都是4字节对齐位置上的……

沧海一庶

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
关于内存地址需要对齐的问题

<br />最近有个项目，调试过程中出现了“不可思议的现象”，在PC上调试完全正确，移植到ARM平台发现居然出错，报错"segment fault".比较郁闷，调试了将近两天，才终于跟踪到，发现居然是因为内存地址没有对齐，导致读取数据发生高16位和低16位发生对换，所以为了更好的记住这个教训，特意到网上搜索相关地址不对齐的解释，现摘录如下：<br /> <br />ARM程序由于字节对齐引起的问题深入分析2007-10-27 14:53<br /> 首先说说，什么叫对齐。如果一个数据是从偶地址开始的连
复制链接

扫一扫