推荐的一些术语

最新推荐文章于 2022-06-06 20:32:18 发布

飞不过海的鸟

最新推荐文章于 2022-06-06 20:32:18 发布

阅读量706

点赞数

分类专栏： Recommend 文章标签： recommend

本文链接：https://blog.csdn.net/weixin_38103312/article/details/80745016

版权

Recommend 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

预估点击率CTR（Click-through Rate）

转化率CVR（Conversion Rate）

ROI（Return on Investment）投资报酬率；投资利润率

机器学习方法：

人工特征工程 + LR（Logistic Regression）

GBDT（Gradient Boosting Decision Tree）

LR、FM（Factorization Machine）

FFM（Field-aware Factorization Machine）

GBDT

GBDT又叫MART（Multiple Additive Regression Tree），是一种迭代的决策树算法。它由多棵决策树组成，所有树的结论累加起来作为最终答案。它能自动发现多种有区分性的特征以及特征组合，并省去了复杂的特征预处理逻辑。Facebook实现GBDT ＋ LR[5]的方案，并取得了一定的成果。

LR

y (x) = s i g m o i d (w 0 + \sum i = 1 n w i x i)

LR可以视作单层单节点的“DNN”, 是一种宽而不深的结构，所有的特征直接作用在最后的输出结果上。模型优点是简单、可控性好，但是效果的好坏直接取决于特征工程的程度，需要非常精细的连续型、离散型、时间型等特征处理及特征组合。通常通过正则化等方式控制过拟合。

FM & FFM

FM可以看做带特征交叉的LR，如下图所示：

从神经网络的角度考虑，可以看做下图的简单网络搭建方式：

模型覆盖了LR的宽模型结构，同时也引入了交叉特征，增加模型的非线性，提升模型容量，能捕捉更多的信息，对于广告CTR预估等复杂场景有更好的捕捉。

在使用DNN模型之前，搜索广告CTR预估使用了FFM模型，FFM模型中引入field概念，把n个特征归属到f个field里，得到nf个隐向量的二次项，拟合公式如下：

y (x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n ⟨ v i, f j, v j, f i ⟩ x i x j

上式中，fj 表示第j 个特征所属的field。设定隐向量长度为k，那么相比于FM的nk个二次项参数，FFM有nkf个二次项参数，学习和表达能力也更强。

例如，在搜索广告场景中，假设将特征划分到8个Field，分别是用户、广告、Query、上下文、用户－广告、上下文－广告、用户－上下文及其他，相对于FM能更好地捕捉每个Field的信息以及交叉信息，每个特征构建的隐向量长度8*k, 整个模型参数空间为8 k n + n + 1。

Yu-Chin Juan实现了一个C++版的FFM模型工具包，但是该工具包只能在单机训练，难以支持大规模的训练数据及特征集合；并且它省略了常数项和一次项，只包含了特征交叉项，对于某些特征的优化需求难以满足，因此我们开发了基于PS-Lite的分布式FFM训练工具（支持亿级别样本，千万级别特征，分钟级完成训练，目前已经在公司内部普遍使用），主要添加了以下新的特性：

支持FFM模型的分布式训练。
支持一次项和常数项参数学习，支持部分特征只学习一次项参数（不需要和其他特征做交叉运算），例如广告位次特征等。拟合公式如下：
$y (x) = w 0 + \sum i = 1 n w i x i + 1 2 \sum i \in g r o u p \sum j \in g r o u p a n d j \neq i ⟨ v i, f j, v j, f i ⟩ x i x j$
支持多种优化算法。