Linux内核模块使用浮点float double运算的方法

最新推荐文章于 2024-08-24 09:10:15 发布

土豆西瓜大芝麻

最新推荐文章于 2024-08-24 09:10:15 发布

阅读量4.1k

点赞数 1

分类专栏： linux C语言文章标签： linux

原文链接：https://linux.cn/article-13474-1.html

版权

linux 同时被 2 个专栏收录

340 篇文章 69 订阅

订阅专栏

C语言

144 篇文章 6 订阅

订阅专栏

最近我们有一个需求，需要把用户态的浮点数运算全部放到内核态运行，以提高运行速度，移植的过程中发现问题没有这么简单，然后我们抽丝剥茧，揭开 Linux 对浮点处理的原理。前面写了好几个内核模块测试float的比较和加减，Makefile里面啥也不用加，代码也没有啥特殊的地方，但是这次写的模块就各种不行，报错如下：

经过查找资料，发现这俩函数都是libc库里的，一个__lesf2表示两个float类型的变量的less or equal比较关系，实际上我用的就是if(a<=b)，另外一个__gesf2就是>=的意思。这俩函数找不到，因为这俩货是libc中的，不是内核的，如果想用，就得把这俩货弄到内核模块中并导出符号，这个我也懒得弄了（主要是没有经验）。

后面又查了好多资料，最后找到下文的内容。它没有直接帮我解决问题，最后我还是参考它的内容曲线救国了。贴一下代码吧，贼矬。等后面弄明白了再改一下。

//两个三维空间坐标点是否是一个长方体空间的左下角坐标和右上角坐标；
//（x1,y1,z1）代表左下角，（x2,y2,z2）代表右上角。

int noinline position_compare_float(float x1, float y1, float z1, float x2, float y2, float z2)
{
	int flag1 = 0,flag2 = 0,flag3 = 0;
	float a;
	kernel_fpu_begin();
	a = x1 - x2;
	kernel_fpu_end();
	
	kernel_fpu_begin();
	memcpy(&flag1, &a, 4);
	kernel_fpu_end();

	kernel_fpu_begin();
	a = y1 - y2;
	kernel_fpu_end();
	
	kernel_fpu_begin();
	memcpy(&flag2, &a, 4);
	kernel_fpu_end();

	kernel_fpu_begin();
	a = z1 - z2;
	kernel_fpu_end();

	kernel_fpu_begin();
	memcpy(&flag3, &a, 4);
	kernel_fpu_end();
	
	
	if ((flag1 >> 31) || (flag2 >> 31) || (flag3 >> 31))
		return 0;
	return 1;
	
	/*if((x1 <= x2) && (y1 <= y2) && (z1 <= z2))
	{
		flag = 1;
	}
	else
	{
		flag = 0;
	}

	return flag;*/
}

以下是本人找到的可用的文章，主要是可以在x86_64上用，而不是arm。

此文章的代码基于 x86 64 位 CPU，Linux 4.14 内核。

一、 Linux 内核添加浮点运算出现的问题

我们以一个简单的浮点运算例子来说明：

test_float.c

#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/debugfs.h>
#include <asm/fpu/api.h>
#include <linux/delay.h>

static noinline double float_divide(double float1, double float2)
{
    return float1 / float2;
}

static int __init test_float_init(void)
{
  double result, float1 = 4.9, float2 = 0.49;

  result = float_divide(float1, float2);
  printk("result = %d\n", (int)result);

  return 0;
}

static void __exit test_float_exit(void)
{
  ;
}

module_init(test_float_init);
module_exit(test_float_exit);
MODULE_LICENSE("GPL");

Makefile

obj-m := test_float.o
KDIR := /lib/modules/$(shell uname -r)/build

all:
    make -C $(KDIR) M=$(PWD) modules

这个内核模块就是计算了两个浮点数除的结果，然后将结果打印出来。但是我们执行 make 编译的时候发现报错：

提示 SSE 寄存器返回的报错信息为 “SSE disabled”。我们执行 make V=1 查看关键的编译信息：

我们发现在 gcc 的参数中有 -mno-sse -mno-mmx -mno-sse2 选项，原来 gcc 默认的编译选项禁用了 sse、mmx、sse2 等浮点运算指令。

二、通过添加 gcc 编译参数和 kernel_fpu_begin/kernel_fpu_end 来解决问题

为了让内核支持浮点运算，我们在 Makefile 中添加支持 sse 等选项，源码中添加 kernel_fpu_begin/kernel_fpu_end 函数，修改后的源码如下所示：

test_float.c

#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/debugfs.h>
#include <asm/fpu/api.h>
#include <linux/delay.h>

static noinline double float_divide(double float1, double float2)
{
    return float1 / float2;
}

static int __init test_float_init(void)
{
  double result, float1 = 4.9, float2 = 0.49;

  kernel_fpu_begin();
  result = float_divide(float1, float2);
  kernel_fpu_end();
  printk("result = %d\n", (int)result);

  return 0;
}

static void __exit test_float_exit(void)
{
  ;
}

module_init(test_float_init);
module_exit(test_float_exit);
MODULE_LICENSE("GPL");

Makefile

obj-m := test_float.o
KDIR := /lib/modules/$(shell uname -r)/build

FPU_CFLAGS += -mhard-float
FPU_CFLAGS += -msse -msse2
CFLAGS_test_float.o += $(FPU_CFLAGS)

all:
    make -C $(KDIR) M=$(PWD) modules

此时执行 make，发现编译正确通过了：

然后 insmod test_float.ko，观察 dmesg 的输出：

从上面的例子，结合内核源码中 arch/x86/Makefile 中的 KBUILD_CFLAGS，可以看到编译内核及内核模块时，gcc 选项继承 Linux 中的规则，指定了 -mno-sse -mno-mmx -mno-sse2，也就是禁用了 FPU 。所以，要想内核模组支持浮点运算，编译选项需要显式的指定 -msse -msse2。

三、 Linux 内核态对浮点运算处理方式的分析

从上面可以看到，我们为了实现一个内核模块的浮点运算，添加了编译参数 -mhard-float和-msse -msse2，对于编译参数来说，-mhard-float 是告诉编译器直接生成浮点运算的指令，而 -msse -msse2 则是告诉编译器可以使用 sse/sse2 指令集来编译代码。

kernel_fpu_begin 和 kernel_fpu_end 也是必须的，因为 Linux 内核为了提高系统的运行速率，在任务上下文切换时，只会保存/恢复普通寄存器的值，并不包括 FPU 浮点寄存器的值，而调用 kernel_fpu_begin 主要作用是关掉系统抢占，浮点计算结束后调用 kernel_fpu_end 开启系统抢占，这使得代码不会被中断，从而安全的进行浮点运算，并且要求这之间的代码不能有休眠或调度操作，另外不得有嵌套的情况出现（将会覆盖原始保存的状态，然后执行 kernel_fpu_end() 最终将恢复错误的 FPU 状态）。

void kernel_fpu_begin(void)
{
preempt_disable();
  __kernel_fpu_begin();
}

四、三角函数在 Linux 内核态的实现

由于内核态不支持浮点运算，所以像三角函数之类浮点运算都没有实现，如果需要，可以将用户态 glibc 中相关的三角函数的实现移植到内核态。

五、 Linux 用户态对浮点运算处理方式的分析

为什么用户态浮点运算就不需要指定编译选项以及显式调用 kernel_fpu_begin 和 kernel_fpu_end 函数呢？我们在用户态下写一个简单的带浮点运算的例子：

user_float.c

#include <stdio.h>

int main(int argc, char **argv)
{
  int result, float1=4.9, float2=0.49;

  result = float1 / float2;
  printf("result = %d\n", result);

  return 0;
}

我们分别使用下面四条编译指令查看编译出来的汇编：

gcc -S user_float.c
gcc -S user_float.c -msoft-float
gcc -S user_float.c -mhard-float
gcc -S user_float.c -msoft-float -mno-sse -mno-mmx -mno-sse2

前三条命令编译成功。依次查看编译生成的汇编代码，发现生成的汇编代码是完全一样的，都是用到了 sse 指令中的 mmx 寄存器，也就是使用到了 FPU。

第四条命令编译失败，提示 error: SSE register return with SSE disabled。从上面的现象中我们可以得出结论，系统默认使用 gcc 编译用户态程序时，gcc 默认使用 FPU，也就是使用硬浮点来编译。

经过查阅各种文档和分析代码，x86 CPU 提供如下特性：CPU 提供的 TS 寄存器的第三个位是任务已切换标志Task Switched bit，CPU 在每次任务切换时会设置这个位。而且 TS 的这个位被设置时，当进程使用 FPU 指令时 CPU 会产生一个 DNA（Device Not Availabel）异常。Linux 使用此特性，当用户态应用程序进行浮点运算时（SSE 等指令），触发 DNA 异常，同时使用 FPU 专用寄存器和指令来执行浮点数功能，此时 TS_USEDFPU 标志为 1，表示用户态进程使用了 FPU。

void fpu__restore(struct fpu *fpu)
{
  fpu__initialize(fpu);

  /* Avoid __kernel_fpu_begin() right after fpregs_activate() */
  kernel_fpu_disable();
  trace_x86_fpu_before_restore(fpu);
  fpregs_activate(fpu);
  copy_kernel_to_fpregs(&fpu->state);
  trace_x86_fpu_after_restore(fpu);
  kernel_fpu_enable();
}
EXPORT_SYMBOL_GPL(fpu__restore);

假设用户态进程 A 使用到了 FPU 执行浮点运算，此时用户态进程 B 被调度执行，那么当进程 A 被调度出去的时候，内核设置 TS 并调用 fpu__restore 将 FPU 的内容保存。当进程 A 恢复浮点运算执行时，触发 DNA 异常，相应的异常处理程序会恢复 FPU 之前保存的状态。

假设用户态进程 A 使用到了 FPU 执行浮点运算（TS_USEDFPU 标志为 1），此时内核态进程 C 调度并使用 FPU，由于内核只会保存普通的寄存器的值，并不包括 FP 等寄存器的值，所以内核会主动调用 kernel_fpu_begin 函数保存寄存器内容，使用完之后调用 kernel_fpu_end。当用户态进程 A 恢复浮点运算执行时，触发 DNA 异常，相应的异常处理程序会恢复 FPU 寄存器的内容。