SSE

最新推荐文章于 2024-04-21 11:10:24 发布

pizi0475

最新推荐文章于 2024-04-21 11:10:24 发布

阅读量1.8k

点赞数

分类专栏：优化相关技术理论硬件相关计算机系统文章标签：英特尔 64bit 扩展 video 优化解密

技术理论同时被 3 个专栏收录

1010 篇文章 11 订阅

订阅专栏

硬件相关

204 篇文章 4 订阅

订阅专栏

优化相关

154 篇文章 2 订阅

订阅专栏

SSE是指令集的简称，它包括70条指令，其中包含单指令多数据浮点计算、以及额外的SIMD整数和高速缓存控制指令。其优势包括：更高分辨率的图像浏览和处理、高质量音频、MPEG2视频、同时MPEG2加解密；语音识别占用更少CPU资源；更高精度和更快响应速度。

计算机上的SSE

　　SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后，在其计算机芯片Pentium III中引入的指令集，是MMX的超集。AMD后来在Athlon XP中加入了对这个指令集的支持。这个指令集增加了对8个128位寄存器XMM0-XMM7的支持，每个寄存器可以存储4个单精度浮点数。使用这些寄存器的程序必须使用FXSAVE和FXRSTR指令来保持和恢复状态。但是在Pentium III对SSE的实现中，浮点数寄存器又一次被新的指令集占用了，但是这一次切换运算模式不是必要的了，只是SSE和浮点数指令不能同时进入CPU的处理线而已。

　　SSE2是Intel在P4的最初版本中引入的，但是AMD后来在Opteron 和Athlon 64中也加入了对它的支持。这个指令集添加了对 64位双精度浮点数的支持，以及对整型数据的支持，也就是说这个指令集中所有的MMX指令都是多余的了，同时也避免了占用浮点数寄存器。这个指令集还增加了对CPU的缓存的控制指令。AMD对它的扩展增加了8个XMM寄存器，但是需要切换到64位模式(AMD64)才可以使用这些寄存器。Intel后来在其EM64T架构中也增加了对AMD64的支持。

　　SSE3是Intel在P4的Prescott版中引入的指令集，AMD在Athlon 64的第五个版本中也添加了对它的支持。这个指令集扩展的指令包含寄存器的局部位之间的运算，例如高位和低位之间的加减运算；浮点数到整数的转换，以及对超线程技术的支持。

　　 SSE4指令集将给英特尔下一代平台带来“相当大的视频性能提升”。,其它视频增强技术还包括CVT（明晰视频技术）--英特尔对ATI Avivo的回应--和对UDI的支持。上述两项技术基于英特尔965芯片组。其它英特尔官方文件把CVT技术定义为：支持高级解码、拥有预处理和增强型3D处理能力。 SSE4指令集是Conroe架构所引入的新指令集。这项原本计划应用于NetBurst微架构Tejas核心处理器之上的全新技术也随着它的夭折最终没能实现，这不能不说是个遗憾，但是SSE4指令集出现在了Conroe上又让我们看到了希望。

　　SSE4指令集共包括16条指令，不过虽然扣肉处理器推出已经有一些时日，但目前英特尔仍没有公布SSE4指令集的具体资料。这相当令人感到纳闷。也许英特尔是基于特殊的考虑，仅让少数合作软件厂商取得数据，只是这种作法实在很没有说服力就是了，天底下没有哪家处理器厂商，希望自己新增的指令越少人用越好。

　　不过，从Intel Core微架构针对SSE指令所作出的修改被称之为“Intel Advanced Digital Media Boost”技术来看，未来SSE4将更注重针对视频方面的优化，我们认为SSE4主要改进之处可能将针对英特尔的Clear Video 高清视频技术及UDI接口规范提供强有力的支持。这两项技术基于965 芯片组，Intel的官方把Clear Video技术定义为：支持高级解码、拥有预处理和增强型3D处理能力。值得一提的是，在SSE4中另一个重要的改进就是提供完整128 位宽的SSE执行单元，一个频率周期内可执行一个128位SSE指令。Conroe中SSE的ADDPS(4D 32bit共128bit，单精度加法)、MULPS(4D 32bit共128bit，单精度乘法)和SSE2的ADDPD(2D 64bit共128bit，双精度加法)、MULPD(2D 64bit共128bit，双精度乘法)，这四条重要SSE算术指令的吞吐周期都降低到1个周期，真正做到了英特尔宣称的每个周期执行一条128位向量加法指令和一条128位向量乘法指令的能力。

　　可以说 Conroe的向量单元已经全面引入了流水线化的设计。而支持SSE3的NetBurst 微处理器架构虽然提供128位宽执行单元，但仅有一组，性能孰高孰低一目了然。更为重要的是，目前已经有相当多的软件针对 SSE指令集进行了优化，其中包括2D制图、3D制图、视频播放、音频播放、文件压缩等方面，可见其应用范围相当广泛。

　　配合完整的128位SSE执行单元，以及庞大的执行单元数目，Conroe处理器可在一个频率周期内，同时执行128位乘法、128位加法、128位数据加载与128位数据回存，或着是4个32位单倍浮点精确度乘法与4个32位单倍浮点精确度加法运算，这将使其更利于多媒体应用。因此，SSE4指令集能够有效带来系统性能上的提升，这一代在众多测试中早已被证实。虽然其不会像当年 SSE2指令集出现时那样带来巨大的性能提升，但是其在某些特殊方面的应用还是让我们对它充满了期待。

后续版本

SSE2

　　SSE2是Intel在Pentium 4 处理器的最初版本中引入的，但是AMD后来在Opteron 和Athlon 64处理器中也加入了SSE2的支持。SSE2指令集添加了对 64位双精度浮点数的支持，以及对整型数据的支持，也就是说这个指令集中所有的MMX指令都是多余的了，同时也避免了占用浮点数寄存器。这个指令集还增加了对CPU快取的控制指令。AMD对它的扩展增加了8个XMM寄存器，但是需要切换到64位模式（AMD64）才可以使用这些寄存器。Intel后来在其EM64T架构中也增加了对AMD64的支持。

SSE3

　　SSE3是Intel在Pentium 4 处理器的 Prescott 核心中引入的第三代SIMD 指令集，AMD在Athlon 64的第五个版本，Venice核心中也加入了SSE3的支持。这个指令集扩展的指令包含寄存器的局部位之间的运算，例如高位和低位之间的加减运算；浮点数到整数的转换，以及对超执行绪技术的支持。

SSSE3

　　SSSE3是Intel针对 SSE3指令集的一次额外扩充，最早内建于Core 2 Duo 处理器中。

SSE4

　　SSE4是Intel在Penryn核心的Core 2 Duo与Core 2 Solo 处理器时，新增的47条新多媒体指令集，并且现在更新至 SSE4.2。AMD也开发了属于自己的SSE4a多媒体指令集，并内建在Phenom与Opteron等K10架构处理器中，不过无法与Intel的SSE4系列指令集相容。

SSE5

　　SSE5]是AMD为了打破Intel垄断在处理器指令集的独霸地位所提出的，SSE5初期规划将加入超过100条新指令，其中最引人注目的就是三算子指令（3-Operand Instructions）及熔合乘法累积（Fused Multiply Accumulate）。其中，三算子指令让处理器可将一个数学或逻辑函式库，套用到算子或输入资料。借由增加算子的数量，一个 x86 指令能处理二至三笔资料， SSE5 允许将多个简单指令汇整成一个指令，达到更有效率的指令处理模式。提升为三运算指令的运算能力，是少数 RISC 架构的水平。熔合乘法累积让允许建立新的指令，有效率地执行各种复杂的运算。熔合乘法累积可结合乘法与加法运算，透过单一指令执行多笔重复计算。透过简化程式码，让系统能迅速执行绘图着色、快速相片着色、音场音效，以及复杂向量演算等效能密集的应用作业。SSE5最快将内建于AMD下一代Bulldozer核心。

AVX

　　AVX是Intel的SSE延伸架构，如IA16至IA32般的把暂存器XMM 128bit提升至YMM 256bit，以增加一倍的运算效率。此架构支持了三运算指令（3-Operand Instructions），减少在编码上需要先复制才能运算的动作。在微码部分使用了LES LDS这两少用的指令作为延伸指令Prefix。

FMA

　　FMA是Intel的AVX扩充指令集，如名称上熔合乘法累积（Fused Multiply Accumulate）的意思一样。

pizi0475

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SSE

SSE是指令集的简称，它包括70条指令，其中包含单指令多数据浮点计算、以及额外的SIMD整数和高速缓存控制指令。其优势包括：更高分辨率的图像浏览和处理、高质量音频、MPEG2视频、同时MPEG2加解密；语音识别占用更少CPU资源；更高精度和更快响应速度。计算机上的SSE　　SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之
复制链接

扫一扫