128位java_对128位SIMD寄存器进行“双精度位移字节”

用x64汇编编写国密SM3散列算法遇到了一个小问题:

假定32位数组W[68]的前7个数据被导入xmm0:1寄存器:

|-------------------|-------------------|

| xmm0 | xmm1 |

|----|----|----|----|----|----|----|----|

|W[0]|W[1]|W[2]|W[3]|W[4]|W[5]|W[6]|W[7]|

|----|----|----|----|----|----|----|----|

现要将W[3:6]导入xmm2寄存器:

|-------------------|

| xmm2 |

|----|----|----|----|

|W[3]|W[4]|W[5]|W[6]|

|----|----|----|----|

不许改变xmm0:1的内容,可以使用其它xmm寄存器,CPUID限定06_5EH。

能够产生正确结果的代码并非唯一:

代码一:

pextrd $3, %xmm0, %eax #eax = W[3]

pshufd $0x93, %xmm1, %xmm2 #xmm2 = |W[7]|W[4]|W[5]|W[6]|

pinsrd $0, %eax, %xmm2 #xmm2 = |W[3]|W[4]|W[5]|W[6]|

代码二:

pextrd $3, %xmm0, %eax #eax = W[3]

movdqa %xmm1, %xmm2 #xmm2 = |W[4]|W[5]|W[6]|W[7]|

psrldq $0x8, %xmm2 #xmm2 = |0000|W[4]|W[5]|W[6]|

pinsrd $0, %eax, %xmm2 #xmm2 = |W[3]|W[4]|W[5]|W[6]|

代码三:

movdqa %xmm1, %xmm2 #xmm2 = |W[4]|W[5]|W[6]|W[7]|

pslldq $0x4, %xmm2 #xmm2 = |0000|W[4]|W[5]|W[6]|

movdqa %xmm0, %xmm3 #xmm3 = |W[0]|W[1]|W[2]|W[3]|

psrldq $0x12, %xmm3 #xmm3 = |w[3]|0000|0000|0000|

por %xmm3, %xmm2 #xmm2 = |W[3]|W[4]|W[5]|W[6]|

分别将上述代码插入循环测试程序中,得到的结果是:代码一和代码二速度一样,

代码三比前者速度快一倍!查阅Intel编程手册才发现这里面有个大坑:pextrd

指令的耗时高达3,pinsrd指令耗时为2,两者的冷却都是1,而其它的指令耗时只有1,

冷却最短的movdqa只有0.25,字节位移指令pslldq和psrldq的冷却也只有0.33,

导致代码三性能大幅度胜出。pextrd比pinsrd还慢尤其毁三观,以内存为例,写入

速度比读取速度慢N倍都是很正常的,然而xmm寄存器和通用寄存器的交换过程中,

导出(类同读取)竟然比导入(类同写入)还慢50%,这个耗时已经接近64位乘法(耗时4)

和L1缓存读取64位数据(耗时4),即便与64位写入L1缓存(耗时5)相比,pextrd的耗时

3也是惊人的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
selfie_segmentation_solution_simd_wasm_bin.js 是一个自拍分割解决方案的 JavaScript 文件。该文件利用 SIMD (单指令多数据) 和 WebAssembly 技术实现了自拍分割功能,并以二进制格式保存。 自拍分割是一种利用计算机视觉技术将自拍照片中的人物主体与背景进行分离的方法。这种技术可以应用于很多场景,比如制作虚化背景效果、替换背景、添加特效等等。 SIMD 是一种并行计算技术,它使用单个指令同时对多个数据进行操作,可以提高计算效率。由于自拍分割需要对图像中的每个像素进行计算,利用 SIMD 可以加快分割速度,使得实时应用变得可能。 WebAssembly (简称wasm) 则是一种基于低级汇编语言的二进制格式,它可以在现代浏览器中运行,提供了更高性能的计算能力。通过将自拍分割算法编译为 wasm 格式,可以在浏览器中快速加载和执行算法,而无需依赖于服务器端的计算资源。 selfie_segmentation_solution_simd_wasm_bin.js 文件包含了已经编译为 wasm 格式的自拍分割算法的二进制数据,可以通过浏览器的 WebAssembly 接口加载并使用。使用这个文件,开发者可以轻松地将自拍分割功能集成到自己的网页应用中,实现各种有趣的效果。 总结来说,selfie_segmentation_solution_simd_wasm_bin.js 是一个实现自拍分割功能的 JavaScript 文件,利用了 SIMD 和 WebAssembly 技术提高了计算效率和性能,可以在浏览器中快速加载和执行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值