3D 基础：欧拉角、四元数、旋转矩阵、轴角

最新推荐文章于 2024-11-07 11:26:01 发布

薄羽蜉蝣

最新推荐文章于 2024-11-07 11:26:01 发布

阅读量2.6k

点赞数 2

分类专栏： Robotik PointCloudProcessing

本文链接：https://blog.csdn.net/qq_33913063/article/details/112850001

版权

PointCloudProcessing 同时被 2 个专栏收录

3 篇文章

订阅专栏

Robotik

2 篇文章

订阅专栏

Introduction

关于各种数据表示格式的学习总结。

基础知识

欧拉角与旋转矩阵

欧拉角转换旋转矩阵

欧拉角旋转序列(Euler Angle Rotational Sequence)一共有12种顺规，6种绕三条轴的旋转(也叫Tait-Bryan Angle，XYZ,XZY,YXZ,YZX,ZXY,ZYX)，另外6种只绕两条轴的旋转(也叫Proper Euler Angle，XYX,YXY,XZX,ZXZ,YZY,ZYZ)。如果相邻两次旋转是绕同一条轴，例如XXY，那么其实可以坍缩成XY。那么只绕一条轴旋转就根本不够自由度就不需要说了。也就是说，一共有12种基础旋转的组合顺序，它们可以旋转出三维的所有旋转状态。所以一共是12种旋转顺规（可以表示所有旋转的集合），DirectXMath库采用的是ZXY顺规，分别对应着Z-Roll，X-Pitch，Y-Yaw。
在这里插入图片描述

欧拉角构造旋转矩阵就直接把三个Elemental Rotation Matrix乘在一起就好。
根据不同的转换顺序，可以计算出不同的公式。
https://en.wikipedia.org/wiki/Euler_angles 中给出了12种旋转顺序的公式。

万向锁

万向锁现象是欧拉角表征姿态的一个固有缺陷。
ZYX顺序旋转过程中，如果Y旋转是正负90度时，Y的旋转轴就变成了Z轴，相当于失去了一个自由度。
在这里插入图片描述
无论你怎么改变φ和ψ，你的旋转轴一直是Z轴不变。 导致自由度的缺失。
要想改变φ和ψ有不同的效果，你只能是去改变θ的值，以上就是用数学方法来解释为什么俯仰角在±90°时欧拉角出现万向锁的过程。
同一种空间状态欧拉角的表示方式不唯一，当出现万向锁现象时，同一种旋转有无数种欧拉角表示形式。
万向锁现象是欧拉角表征姿态的一个固有缺陷，所以，在进行姿态解算时往往会优先使用四元数方法进行描述。

旋转矩阵转换成欧拉角

通过上面的公式，可以计算出欧拉角。
但是：出现万向锁时候，旋转矩阵公式中的元素会产生简化。我们无法确定一个转角的具体值。

ZYX Euler Angles (roll, pitch, yaw)

Reference:
https://www.ccs.neu.edu/home/rplatt/cs5335_fall2016/slides/euler_quaternions.pdf

四元数

四元数是由1个实数加上3个复数组合而成，通常可以表示成w+xi+yj+zk或者（w,(x，y，z)）

为什么要用复数？

利用复数是为了把一个三维空间问题增加一个自由度，变成四维空间的问题。以下是一些重要的概念：
空间中的子空间：一般而言，空间（维度>2）都存在更低维的子空间，比如二维空间中一维子空间，也就是直线；三维空间中的一维子空间和二维子空间，也就是直线和面。高维空间中的平面我们称为超平面。

空间和子空间的映射：四维，(w,x,y,z)，当w=0时，(0,x,y,z)就是一个三维子空间，这也是为什么我们可以用单位四元数对三维向量进行操作，其实我们是将三维向量映射到四维的三维子空间（w=0，这种形式也成纯四元数），然后对其进行旋转，最终得到的向量结果依然是这个三维子空间中的，因而可以映射回三维空间。

广义球：我们在二维平面上，广义球其实指代circle，三维空间上就是我们认知上的球，称为two-sphere，而四维空间中广义球其实是一个超球（hyper-sphere），又称为three-sphere。单位向量其实就是广义球上面的点，而单位四元数也就是three-sphere上面的点。

约束与特征向量：对于空间的点加以约束，则该会减少参数的数量，比如三维空间的点在某一单位球面上，原本三个参数{x, y, z}才能表达的点现在只需要两个参数{u, v}就可以表达。如果{u, v}是单位向量，也可以称{u, v}是{x, y, z}的特征向量。

四元数与旋转

下面会解释一下利用复数是怎么把四元数与旋转联系起来。
在这里插入图片描述
上面的向量可以表示一个旋转，通过转换成极坐标的形式，通过欧拉公式的转换，可以得到下面的结果。

欧拉公式：

通过欧拉公式转换后的结果，可以转化为四元数。

四元数转换成旋转矩阵

已知一个代表旋转的单位四元数在这里插入图片描述
和一个被旋转的向量v：

构造一个纯四元数 p =（v,0）,旋转之后变成p’ = （v’,0）
p’ = q p q ^(-1)

计算之后获得公式
在这里插入图片描述

四元数理解

四元数自由度并没有四个维度，由于存在w²+x²+y²+z²=1这个约束，它的自由度其实只有3。

上面小结中的第一部构建了一个纯四元数：
纯四元数(Pure Quaternion)，表示为{0, p}，就是w=0的四元数。其实上回已经分析过这个空间了，处于四维空间中w=0的三维子空间。
所以四元数旋转的过程可以理解为，构建一个纯四元数之后，在纯四元数这个三维子空间中进行旋转，再转换成一个旋转后的纯四元数。
四元数乘法：
四元数乘法和复数的矩阵乘法其实是等价的。
在这里插入图片描述

右边是z2的向量形式，左边是z1的矩阵形式。

p’ = q p q ^(-1) 解释

这个公式是四元数乘法的普适公式。

如果四元数中的w等于0, 旋转后的四元数仍然会在w=0下的三维空间。
w 不等于0，旋转后的四元数的w会变化，不会保持在同一个三维空间内。
这导致了旋转过程中的公式是不同的。
w 不等于0时，需要进行两次旋转，第一次旋转之后，w会变化，旋转之后处于不同的三维空间里面（q p）。第二次旋转之后，相当于转换回最初的w空间下的三维空间的坐标。这也是为什么乘上q ^(-1)的原因。
公式推导请见帖子：https://zhuanlan.zhihu.com/p/27541307

旋转矩阵转换成四元数

从旋转矩阵里提取四元数，也是可以像提取欧拉角那样，用参数化过的矩阵的表达式凑出来

四元数的优点

1.平滑插值：slerp和squad提供了方位间的平滑插值，没有其他方法能提供平滑插值。
2.快速连接和角位移求逆：四元数叉乘能将角位移序列转换为单个角位移，用矩阵做同样的操作明显会慢一些。
（四元数共轭提供了一种有效计算反角位移的方法，通过转置矩阵也能达到同样的目的，但不如四元数来得容易。）
3.(能和矩阵形式快速转换：四元数和矩阵的转换比欧拉角与矩阵之间的转换稍微快一些。)
4.(仅用四个数：四元数仅包含四个数，而矩阵用了9个数，它比矩阵“经济”得多（当然仍然比欧拉角多33%）。)

四元数缺点

1.比欧拉角空间稍微大一些。
2.四元数可能出现不合法现象：坏的输入数据或浮点数舍入误差累积都可能使四元数不合法（能通过四元数表转化解决这个问题，确保四元数为单位大小）。
3.难于使用。在所有三种方式中。四元数是最难于直接使用的。

四元数插值：球面（Slerp）插值

其实插值问题一直都算是图形学中比较经典的问题，一般来说线性插值可以满足大多数的情况，但是对于旋转来说，线性插值肯定效果不好，如下图在这里插入图片描述

球面（Slerp）插值

球面插值的一般形式
主体思想其实就是施密特正交，先根据 q_a 和 q_b 解算出两个正交的四元数 q_0 和 q_1，然后通过加权算出最终的 q(t)。
在这里插入图片描述
接下来会证明：上面的一般向量形式可以转换转换成下面的四元数相乘格式。

把下面的公式代入到上方的一般形式公式中。

结果得到了q1^(t)，证明了一般形式与四元数乘法结果是相通的。

（Reference: https://zhuanlan.zhihu.com/p/28189289）

四元数应用：顺序无关的旋转混合

Reference: https://zhuanlan.zhihu.com/p/28330428

需要解决的问题

我们知道旋转操作所构成的空间非线性，无法对旋转操作直接进行线性叠加。表示旋转的四元数也不能直接简单的线性叠加，并且旋转操作具有不可交换性，交换后结果不同。

近似解：

如果不要求那么高的精度而只是找个看起来凑合的近似解的话，扩展一下对于两个四元数的NLerp操作（Normalized Lerp），直接对多个四元数进行线性叠加然后Normalize一下，在这些四元数所代表的旋转差别不大的情况下，效果也还可以。

“精确”的混合

困难点

对这些四元数依次相乘肯定是不行的，因为四元数乘法顺序相关；
用SLerp只能针对两个四元数进行“精确”的混合（这里“精确”指的是角速度匀速的球面插值），但是SLerp没法扩展到多个四元数

方案：
方案的注意点：下面的方法只适用于additive pose，它的内容是个变化量（位移，旋转）而不是位置量（位置，朝向）。
通过把多个旋转中的每个旋转都划分成n多份，在每一步旋转过程中，都进行多个小旋转。

证明过程请看原帖子/ Linear Combination of Transformations 2002 siggraph的论文。
应用：用在动画中，计算多个动作变化的插值模拟。
这个方法是对于旋转的，对于朝向的是另外的方法：如何平均一堆四元数所表示的朝向。

轴角和四元数的关系

轴-角(Axis-Angle)顾名思义就是绕某条单位轴旋转一定角度，从这个意义上看，它构造四元数是非常舒服的，毕竟直观的几何意义有一点点类似，绕单位轴u旋转 theta 的四元数是
在这里插入图片描述

总结

欧拉角：非常直观，我们可以很容易理解它的意思，也能想象出对应的空间位置，但是存在万向锁现象，导致后面有很多数学问题。

旋转矩阵：旋转矩阵有9个元素，计算繁杂，尤其是求微分时，而且也不直观。

四元数：没有奇点，能表征任何旋转关系，而且表示简单，只有四个元素，计算量小，但是不直观

选择哪种？

1.欧拉角最容易使用。当需要为世界中的物体制定方位时，欧拉角能大大简化人机交互，包括直接的键盘输入方位，在代码中指定方位（如为渲染设定摄像机）、在调试中测试。这个优点不应被忽视，不要以“优化”为名义而牺牲易用性，除非您确定这种优化的确有效果。
2.如果需要在坐标系之间转换位置，那么就选择矩阵形式。当然这并不意味着您就不能用其它格式来保存方位，并在需要的时候转换到矩阵格式。另一种方法是用欧拉角作为方位“主拷贝”但同时维护一个旋转矩阵，当欧拉角发生改变时矩阵也要同时进行更新。
3.当需要**大量保存方位数据（如动画）**时，就使用欧拉角或四元数。欧拉角蒋少占25%的内存，但它在转换到矩阵时要稍微慢一些。如果动画数据需要嵌套坐标系之间的连接，四元数可能使最好的选择。
4.**平滑的插值只能用四元数完成。**如果您用其它格式，也可以先转换到四元数然后再插值，插值完毕后再转换回原来的形式。

Reference

1: https://zhuanlan.zhihu.com/p/45404840
2: https://zhuanlan.zhihu.com/p/79894982
3. https://zhuanlan.zhihu.com/p/27471300
4. https://krasjet.github.io/quaternion/quaternion.pdf
5. https://blog.csdn.net/pizi0475/article/details/6261667
6. https://www.ccs.neu.edu/home/rplatt/cs5335_fall2016/slides/euler_quaternions.pdf