基于域的分解机(FFM)理论介绍及libFFM源码解析

最新推荐文章于 2020-08-29 18:17:27 发布

u010779707

最新推荐文章于 2020-08-29 18:17:27 发布

阅读量615

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

34 篇文章 2 订阅

订阅专栏

转载出处：http://blog.csdn.net/zc02051126/article/details/54614230

符号说明：

x表示样本特征数据
y表示样本目标数据
第i个训练样本为(xi,yi)，为了方便也可以用x=xi表示第i个样本

1 基于域的分解机模型（FFM）

1.1 线性模型

\emptyset (w, x) = w T x = w 0 + \sum j \in C 1 w j x j - - - - (1)

C1表示x中非零元素索引的集合

1.2 二次多项式模型

\emptyset (w, x) = w T x = w 0 + \sum j 1, j 2 \in C 2 w j 1, j 2 x j 1 x j 2 - - - - (2)

C2表示x中非零的组合元素索引的集合

1.3 分解机模型

\emptyset (w, x) = w T x = w 0 + \sum j \in C 1 w j x j + \sum j 1, j 2 \in C 2 ⟨ w j 1, w j 2 ⟩ x j 1 x j 2 - - - - (3)

w是二维矩阵，wi表示第i行向量，长度为k，k是用户自定义的参数，也称之为隐变量

1.4 域分解机模型

\emptyset (w, x) = w T x = w 0 + \sum j \in C 1 w j x j + \sum j 1, j 2 \in C 2 ⟨ w j 1, f j 2, w j 2, f j 1 ⟩ x j 1 x j 2 - - - - (4)

因为线性项

w 0 + \sum j \in C 1 w j x j

在训练过程中非常容易计算，所以可以先将其忽略，只需要研究

\sum j 1, j 2 \in C 2 ⟨ w j 1, f j 2, w j 2, f j 1 ⟩ x j 1 x j 2

，将其写成另一种形式

\sum i = 1 n \sum j = i + 1 n ⟨ w i, f j, w j, f i ⟩ x i x j - - - - (5)

1.5 基于FFM的逻辑回归模型

1.5.1 -1，1损失的逻辑回归模型

min w \sum p = 1 L (log (1 + e x p (- y p \emptyset (w, x p))) + λ 2 ∥ w ∥ 2) - - - - (6)

其中

\emptyset (w, x p) = \sum i = 1 n \sum j = i + 1 n ⟨ w i, f p, j, w j, f p, i ⟩ x p, i x p, j - - - - (7)

令

L (x p, y p) = l o g (1 + e x p (- y p \emptyset (w, x p))) + λ 2 ∥ w ∥ 2 - - - - (8)

其为每个样本的损失函数。

L(xp,yp)对参数w的导数为：

\partial L ( x p , y p ) \partial w = - y p exp ( - y p \emptyset ( w , x p ) ) 1 + e x p ( - y p \emptyset ( w , x p ) ) \partial \emptyset ( w , x p ) \partial w + λ w - - - - (9)

在式（8）的导数计算公式中，

- y p exp ( - y p \emptyset ( w , x p ) ) 1 + e x p ( - y p \emptyset ( w , x p ) )

是标量，对于每个样本只要按照式（7）计算即可，第二项

λ w

用惩罚参数乘以对应的参数即可，比较麻烦的就是

\partial \emptyset ( w , x p ) \partial w

的计算。

1.5.2 ∅(w,xp) 的求导过程$

为了便于理解首先对

⟨ w i, f p, j, w j, f p, i ⟩ x p, i x p, j

中的

w i, f p, j

和

w j, f p, i

分别的偏导数如下

\partial ⟨ w i , f p , j , w j , f p , i ⟩ x p , i x p , j \partial w i , f p , j = w j, f p, i x p, i x p, j - - - - (10)

\partial ⟨ w i , f p , j , w j , f p , i ⟩ x p , i x p , j w j , f p , i = w i, f p, j x p, i x p, j - - - - (11)

所 以 \emptyset (w, x p) 对 w i, f p, j 和 w j, f p, i 的 偏 导 数 分 别 如 下

\partial \emptyset ( w , x p ) \partial w i , f p , j = \sum i = 1 n \sum j = i + 1 n w j, f p, i x p, i x p, j - - - - (12)

\partial \emptyset ( w , x p ) \partial w j , f p , i = \sum i = 1 n \sum j = i + 1 n w i, f p, j x p, i x p, j - - - - (13)

训练模型时需要注意的问题：在式（12）和式（13）中会存在 $w j, f p, i (x t, i x t, j + x q, i x q, j + \dots)$ 在训练时不需要合并这些项，只要把这些项当成更新参数 $w j, f p, i$ 的多个样本即可，这在编程实现中将非常有用。

假设有如下的例子，五个特征，两个域

图1

按照式（7），去掉下标p，计算图1中所示的分解模型，如下

\emptyset (w, x) = \sum i = 1 5 \sum j = i + 1 5 ⟨ w i, f j, w j, f i ⟩ x i x j

= ⟨ w 1, f 1, w 2, f 1 ⟩ x 1 x 2 + ⟨ w 1, f 1, w 3, f 1 ⟩ x 1 x 3 + ⟨ w 1, f 2, w 4, f 1 ⟩ x 1 x 4 + ⟨ w 1, f 2, w 5, f 1 ⟩ x 1 x 5

= ⟨ w 2, f 1, w 3, f 1 ⟩ x 2 x 3 + ⟨ w 2, f 2, w 4, f 1 ⟩ x 2 x 4 + ⟨ w 2, f 2, w 5, f 1 ⟩ x 2 x 5

= ⟨ w 3, f 2, w 4, f 1 ⟩ x 3 x 4 + ⟨ w 3, f 2, w 5, f 1 ⟩ x 3 x 5

= ⟨ w 4, f 2, w 5, f 1 ⟩ x 4 x 5

从上式中抽取i=1,fj=1和i=3,fj=2

\partial \emptyset ( w , x ) \partial w 1 , f 1 = w 2, f 1 x 1 x 2 + w 3, f 1 x 1 x 3

\partial \emptyset ( w , x ) \partial w 3 , f 2 = w 4, f 1 x 3 x 4 + w 5, f 1 x 3 x 5

在模型学习时，需要迭代公式

w = w + η g

，

η, g

分别为学习率和梯度向量，则在计算

w 3, f 2

时有两种方式：

方式1：

w 3, f 2 = w 3, f 2 + η (w 4, f 1 x 3 x 4 + w 5, f 1 x 3 x 5)

方式2：

w 3, f 2 = w 3, f 2 + η 1 (w 4, f 1 x 3 x 4)

w 3, f 2 = w 3, f 2 + η 2 (w 5, f 1 x 3 x 5)

因为采用的是AdaGrad所以学习率η在方式二中是变化的。

在学习过程中是采用方式1还是方式2哪。答案是方式2。因为在计算实际问题时可能特征分布在多个域中，如果按照方式1则需要把每个域中的信息累加起来，结果是编程上非常麻烦，如果按照方式2，非常符合SGD的思想，把 w4,f1x3x4 和 w5,f1x3x5 看成两个样本，再带回到 x3x4 组合时更新下 w3,f2 ，当访问到 x3x5 组合时再次更新下 w3,f2 ，在实际编程中，具体更新哪些参数可以通过相应的索引进行访问，非常方便。

2 libFFM介绍

2.1 使用介绍

1）编译
下载libffm-1.13.tar.gz，解压，在libffm-1.13下直接make，会产生两个可执行的文件ffm-train和ffm-predict分别用于训练和预测结果。
2）输入数据格式

<label>\t<field1>:<index1>:<value1>\t<field2>:<index2>:<value2>\t...
fieldi表示域的id，indexi表示特征的id，它们都是非负值。
0 1:7759:0.3651 2:7921:0.3651 3:8661:0.3651 4:9619:0.3651
1 1:7633:0.3651 2:8195:0.3651 3:9952:0.3651 4:9619:0.3651
**注意：**libFFM中使用的是“-1，1”损失函数，所以label只能取-1或者1，而这里的样例数据中目标是0、1。因为在libFFM中读取数据时将大于0的目标当成1，小于等于0的当成-1。所以数据中的0、1并不表示损失是0，1。 |
 
 1
2
3
4
5
 
 1
2
3
4
5

3）命令行调用方式
训练：ffm-train [options] training_set_file [model_file]
options控制参数如下表

表 1 o p t i o n s 控 制 参 数 解 释

-l	惩罚参数，缺省值0.00002
-k	隐变量的个数，缺省值4
-t	模型训练时的迭代次数，缺省值15
-r	初始学习率，缺省值0.2
-s	OpenMP的线程数，缺省值1
-p	Validation数据的路径
-v	交叉验证中的折数
–quiet	控制是否输出运行时信息
–no-norm	关闭归一化功能，缺省是对样本进行归一化处理
–no-rand	关闭随机更新功能
–on-disk	当有这个参数时，不会将数据全部读入内存，而是将训练数据存储在磁盘，此时产生一个临时文件.bin
–auto-stop:	当达到最优的validation损失时自动停止，必须与-p参数一同使用

说明：

–no-norm：缺省状态时用每个样本向量的2范数对样本中的每个元素进行归一化，如果设置了这个参数，则不进行归一化处理。
–no-rand：缺省状态训练时随机从数据中选取训练样本，如果不想随机的抽取训练样本，而是想按照数据集中的样本顺序训练，则可以使用此参数，同时还要配合参数”-s
1”使用。
–on-disk：如果训练数据较大内存无法加载全量数据，则可以使用此参数。需要注意的是，这种训练模式下不支持随机的抽取训练数据，所以此时需要设置参数“—no-rand”，同时这种模式下不支持交叉验证。同时还会在磁盘上产生临时的二进制文件[training_set_file].bin。
“`

预测：
ffm-predict test_file model_file output_file

作者给的几个例子

使用缺省参数训练模型
- ffm-train bigdata.tr.txt model
使用如下参数训练模型
- regularization cost = 0.001
- latent factors = 16
- iterations = 30
- learning rate = 0.05
- threads = 4
- ffm-train -l 0.001 -k 16 -t 30 -r 0.05 -s 4 bigdata.tr.txt model
使用bigdata.te.txt作为validation数据
- ffm-train -p bigdata.te.txt bigdata.tr.txt model
使用5折交叉验证
- ffm-train -v 5 bigdata.tr.txt
用–quiet参数训练时不打印训练信息
- ffm-train –quiet bigdata.tr.txt
预测
-ffm-predict bigdata.te.txt model output
基于磁盘的训练

ffm-train –no-rand –on-disk bigdata.tr.txt

使用–auto-stop参数，当达到最优的validation损失时停止训练

ffm-train -p bigdata.te.txt -t 100 bigdata.tr.txt

2.2 源码分析

2.2.1 存储模型用到的数据结构

存储特征的结构体如下
$f 表示域 i d ， j 表示特征 i d ， v 表示特征的值$

图2

存储整个训练数据集的结构体如下
m表示特征个数；l表示样本可是，即训练数据的行数；m表示域的个数；X存储训练数据中非零特征；P用来记录X中每个样本数据的起始位置和结束位置；Y存储样本数据的标签值

图3
下面介绍X和Y的存储格式

图4
- 存储模型结构体如下：下面会主要介绍W的结构

图5

W的存储格式如下

图6

2.2.2 训练

主要的训练方法为

shared_ptr train(ffm_problem *tr,vector &order, ffm_parameter param, ffm_problem *va=nullptr)
在该方法中采用AdaGrad对每个样本进行训练。值得一提的是该方法中采用OpenMP和SSE进行加速，为了理解加速的位置，下面将伪码写出

for i = 0:l //l为特征个数
ffm_float t = wTx(xi, model);
ffm_float expnyt = exp(-y*t);
tr_loss += log(1+expnyt);
ffm_float kappa = -y*expnyt/(1+expnyt);
wTx(begin, end, r, *model, kappa, param.eta, param.lambda, true);
end

下面两条获得进程数
ffm_int old_nr_threads = omp_get_num_threads();
omp_set_num_threads(param.nr_threads);
下面的指令使多线程中的ffm_float t = wTx(xi, model);
ffm_float expnyt = exp(-y*t);结果，在tr_loss += log(1+expnyt);出合并然后继续下面的过线程
#pragma omp parallel for schedule(static) reduction(+: tr_loss)

libFFM中加速技术概述

图7

OpenMP

代码被多个线程并行执行

图8

for循环被发送到多个线程执行

图9

for循环先被发送到多个线程，接着合并，然后再次被分发

图10

对比加速图

图11

SSE

SSE(Streaming SIMD Extensions)/AVX(Advanced Vector Extensions)是Intel公司设计，对其X86体系的SIMD扩展指令集，它基于SIMD向量化技术，增强X86多核处理器的图像和视频处理能力
常用指令如下
_mm_load_ps 从数组中读取向量到寄存器
_mm_store_ps 将寄存器中的向量存储到数组
_mm_add_ps 寄存器中的向量相加
_mm_sub_ps 寄存器中的向量相减
_mm_mul_ps 寄存器中的向量相乘
_mm_rsqrt_ps 寄存器中的向量开方倒数