c#语言float转换int,关于C#:在x86上将float转换为int的最快方法是什么

在x86 CPU上将浮点数转换为int的最快方法是什么。 优选在C或组件中(可以在C中内嵌)以获得以下任何组合:

32/64/80位浮点数 - > 32/64位整数

我正在寻找一些比让编译器更快的技术。

从Pentium 5切换到正确数学的芯片......(让我觉得老了的男人......)

我在地上滚来滚去。 Dang - 这太糟糕的人为你降压了!

这是值得的。:)

:)实际上有Pentium 5吗? 如果有,很抱歉它确实有SSE3,因此非常好。 明智地使用时(参见SSE3和FISTTP评论)。

这取决于您是否需要截断转换或舍入转换以及精确度。默认情况下,当您从float转到int时,C将执行截断转换。有FPU指令可以做到这一点,但它不是ANSI C转换,并且使用它有很多警告(例如了解FPU舍入状态)。由于你的问题的答案非常复杂,并且取决于你没有表达的一些变量,我推荐这篇文章:

http://www.stereopsis.com/FPU.html

使用SSE的打包转换是迄今为止最快的方法,因为您可以在同一指令中转换多个值。 ffmpeg有很多组装(主要用于将音频的解码输出转换为整数样本);检查它的一些例子。

这是一个很好的建议,但我会告诉它它假设两件事: - 你有一个带有SSE(> PII)或SSE2(> PIII)的x86处理器 - 你实际上确实想要一个截断,而不是一个舍入,转变

另请注意,这当然不是80位浮点值的选项

普通x86 / x87代码的常用技巧是强制浮点的尾数部分表示int。随后是32位版本。

64位版本是类比的。上面发布的Lua版本更快,但依赖于截断double到32位结果,因此它需要将x87单位设置为双精度,并且不能适用于双到64位int转换。

这个代码的好处是它对于符合IEEE 754的所有平台都是完全可移植的,唯一的假设是将浮点舍入模式设置为最接近。注意:便携式的编译和工作。如果有的话,x86以外的平台通常不会从这种技术中受益很多。

static const float Snapper=3<<22;

union UFloatInt {

int i;

float f;

};

/** by Vlad Kaipetsky

portable assuming FP24 set to nearest rounding mode

efficient on x86 platform

*/

inline int toInt( float fval )

{

Assert( fabs(fval)<=0x003fffff ); // only 23 bit values handled

UFloatInt &fi = *(UFloatInt *)&fval;

fi.f += Snapper;

return ( (fi.i)&0x007fffff ) - 0x00400000;

}

对于无符号整数,它可以更简单:inline uint32_t toInt(float fval){static float const snapper = 1 << 23; fval + = snapper; return((uint32_t)fval)&amp; 0x007FFFFF; }

static float const snapper;使得速度慢于必要。只需写fval += 1<<23;即可

在x86上它并不慢,因为生成的代码是相同的。没有FPU指令在x87上立即参数。

如果可以保证运行代码的CPU与SSE3兼容(即使是Pentium 5,JBB),也可以允许编译器使用其FISTTP指令(即-msse3用于gcc)。它似乎做了应该总是这样做的事情:

http://software.intel.com/en-us/articles/how-to-implement-the-fisttp-streaming-simd-extensions-3-instruction/

请注意,FISTTP与FISTP不同(它有问题,导致速度缓慢)。它是SSE3的一部分,但实际上是(唯一的)X87端的改进。

除此之外,X86 CPU可能会很好地进行转换。 :)

支持SSE3的处理器

Lua代码库有以下代码片段(请访问www.lua.org查看src / luaconf.h)。

如果你发现(SO发现)更快的方式,我相信他们会很激动。

哦,lua_Number意味着加倍。 :)

/*

@@ lua_number2int is a macro to convert lua_Number to int.

@@ lua_number2integer is a macro to convert lua_Number to lua_Integer.

** CHANGE them if you know a faster way to convert a lua_Number to

** int (with any rounding method and without throwing errors) in your

** system. In Pentium machines, a naive typecast from double to int

** in C is extremely slow, so any alternative is worth trying.

*/

/* On a Pentium, resort to a trick */

#if defined(LUA_NUMBER_DOUBLE) && !defined(LUA_ANSI) && !defined(__SSE2__) && \

(defined(__i386) || defined (_M_IX86) || defined(__i386__))

/* On a Microsoft compiler, use assembler */

#if defined(_MSC_VER)

#define lua_number2int(i,d)   __asm fld d   __asm fistp i

#define lua_number2integer(i,n)     lua_number2int(i, n)

/* the next trick should work on any Pentium, but sometimes clashes

with a DirectX idiosyncrasy */

#else

union luai_Cast { double l_d; long l_l; };

#define lua_number2int(i,d) \

{ volatile union luai_Cast u; u.l_d = (d) + 6755399441055744.0; (i) = u.l_l; }

#define lua_number2integer(i,n)     lua_number2int(i, n)

#endif

/* this option always works, but may be slow */

#else

#define lua_number2int(i,d) ((i)=(int)(d))

#define lua_number2integer(i,d) ((i)=(lua_Integer)(d))

#endif

在汇编中有一条指令将浮点转换为int:使用FISTP指令。它将浮点堆栈中的值弹出,将其转换为整数,然后将其存储在指定的地址处。我认为不会有更快的方式(除非你使用像我不熟悉的MMX或SSE这样的扩展指令集)。

另一条指令FIST将值保留在FP堆栈上,但我不确定它是否适用于四字大小的目的地。

我假设需要截断,就像在"C"中写入i = (int)f一样。

如果你有SSE3,你可以使用:

int convert(float x)

{

int n;

__asm {

fld x

fisttp n // the extra 't' means truncate

}

return n;

}

或者,使用SSE2(或在x64中,内联汇编可能不可用),您可以使用几乎同样快:

#include

int convert(float x)

{

return _mm_cvtt_ss2si(_mm_load_ss(&x)); // extra 't' means truncate

}

在较旧的计算机上,可以选择手动设置舍入模式并使用普通的fistp指令执行转换。这可能只适用于浮点数组,否则必须注意不要使用任何会使编译器改变舍入模式的构造(例如转换)。它是这样完成的:

void Set_Trunc()

{

// cw is a 16-bit register [_ _ _ ic rc1 rc0 pc1 pc0 iem _ pm um om zm dm im]

__asm {

push ax // use stack to store the control word

fnstcw word ptr [esp]

fwait // needed to make sure the control word is there

mov ax, word ptr [esp] // or pop ax ...

or ax, 0xc00 // set both rc bits (alternately"or ah, 0xc")

mov word ptr [esp], ax // ... and push ax

fldcw word ptr [esp]

pop ax

}

}

void convertArray(int *dest, const float *src, int n)

{

Set_Trunc();

__asm {

mov eax, src

mov edx, dest

mov ecx, n // load loop variables

cmp ecx, 0

je bottom // handle zero-length arrays

top:

fld dword ptr [eax]

fistp dword ptr [edx]

loop top // decrement ecx, jump to top

bottom:

}

}

请注意,内联汇编仅适用于Microsoft的Visual Studio编译器(也许是Borland),它必须重写为GNU程序集才能使用gcc进行编译。

然而,具有内在函数的SSE2解决方案应该是非常便携的。

其他舍入模式可以通过不同的SSE2内在函数或通过手动将FPU控制字设置为不同的舍入模式来实现。

重新内联汇编:是的Embarcadero(以前的Borland)确实支持它(C ++和Delphi编译器都支持它)

由于MS在X64中使我们脱离内联汇编并迫使我们使用内在函数,因此我查找了要使用的内容。 MSDN doc给出_mm_cvtsd_si64x一个例子。

这个例子有效,但效率非常低,使用2个双倍的未对齐加载,我们只需要一个加载,因此摆脱了额外的对齐要求。然后产生了许多不必要的负载和重新加载,但它们可以如下消除:

#include

#pragma intrinsic(_mm_cvtsd_si64x)

long long _inline double2int(const double &d)

{

return _mm_cvtsd_si64x(*(__m128d*)&d);

}

结果:

i=double2int(d);

000000013F651085  cvtsd2si    rax,mmword ptr [rsp+38h]

000000013F65108C  mov         qword ptr [rsp+28h],rax

可以在没有内联汇编的情况下设置舍入模式,例如,

_control87(_RC_NEAR,_MCW_RC);

舍入到最近的是默认值(无论如何)。

我想,是否要在每次通话中设置舍入模式或假设它将被恢复(第三方库)的问题必须通过经验来回答。

您必须为_control87()和相关常量包含float.h。

并且,不,这不会在32位中工作,因此请继续使用FISTP指令:

_asm fld d

_asm fistp i

这很有意思,似乎是正确的,但在我的测试中,x64编译器实际上为您的代码和MSDN示例生成完全相同的代码(使用反汇编程序验证)。

如果你真的关心它的速度,请确保你的编译器正在生成FIST指令。在MSVC中,您可以使用/ QIfist执行此操作,请参阅此MSDN概述

您还可以考虑使用SSE内在函数为您完成工作,请参阅英特尔的这篇文章:http://softwarecommunity.intel.com/articles/eng/2076.htm

通常,您可以信任编译器高效且正确。通常可以通过为编译器中已存在的东西滚动自己的函数来获得任何东西。

你是完全错误的。在这种情况下,滚动自己的内容比内置函数提高了10倍的速度,因为当你自己动手时,你可以信任内置_ftol不能做的FPU标志的状态,或者你可以使用它来并行化SSE。

或者您可以标记'-msse3'(gcc)并使'固定'FTSTTP正确无误地执行。

编译器提供的例程不适合性能至关重要的多媒体应用程序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值