RBM and NADE TO Collaborative Filtering

最新推荐文章于 2024-08-10 07:01:04 发布

一步一个脚印的屌丝

最新推荐文章于 2024-08-10 07:01:04 发布

阅读量3.1k

点赞数 1

分类专栏：推荐文章标签：深度学习 hulu 算法

本文链接：https://blog.csdn.net/liurong_cn/article/details/52662693

版权

本文介绍了hulu公司如何使用RBM（受限玻尔兹曼机）和NADE（神经自回归分布估计算法）进行协同过滤，特别是在电影推荐中的应用。内容涵盖了RBM的能量函数、似然函数、对比散度训练，以及NADE的可见层分布和参数更新。RBM-CF结合用户评分和观看历史，提高推荐准确性。

摘要由CSDN通过智能技术生成

RBM and NADE TO Collaborative Filtering

最近在看深度学习在推荐算法上应用，本篇是hulu公司同事的ICML的文章A Neural Autoregressive Approach to Collaborative Filtering,介绍了利用NADE进行电影推荐的方法，在NETFX的数据集上取得了不错的结果，本文主要是学习和记录笔记，学习NADE-CF，并记录所涉及的一些算法，供后续查看方便。

RBM

RBM主要参考受限波尔兹曼机简介-张春霞,同时也参考核复制了博客的很多内容深度学习读书笔记之RBM（限制波尔兹曼机)。在这里主要简介RBM涉及的几个计算公式，方便后边实现的理解。
RBM流程图

能量函数

能量函数。随机神经网络是根植于统计力学的。受统计力学中能量泛函的启发，引入了能量函数。能量函数是描述整个系统状态的一种测度。系统越有序或者概率分布越集中，系统的能量越小。反之，系统越无序或者概率分布越趋于均匀分布，则系统的能量越大。能量函数的最小值，对应于系统的最稳定状态。

E (v, h | θ) = - \sum i = 0 n a i v i - \sum j = 0 m b j h j - \sum i = 0 n \sum j = 0 m v i W i j h j

$E(v,h|\theta)=-\sum_{i=0}^{n}{a_iv_i}-\sum_{j=0}^{m}{b_jh_j}-\sum_{i=0}^{n}\sum_{j=0}^{m}{{v_i}W_{ij}h_j}$
其中，

ai $a_i$ 和

bj $b_j$ 为偏置，

vi $v_i$ 为可见层，

hj $h_j$ 为隐藏层。

似然函数

有了能量函数，定义可视节点和隐藏层的联合概率分布。

p (v, h | θ) = e - E ( v , h | θ ) Z ( θ ),

$p(v,h|\theta) = \frac{e^{-{E(v,h|\theta)}}} {Z(\theta)},$

Z (θ) = \sum v, h e - E (v, h | θ)

$Z(\theta)=\sum_{v,h} {e^{-{E(v,h|\theta)}}}$
由联合概率可以得到观测数据

v $v$ 的概率分布

p(v|θ) $p(v|\theta)$ ，也成为似然函数

p (v | θ) = - 1 Z ( θ ) \sum h e - E (v, h | θ)

$p(v|\theta) = -\frac{1}{Z(\theta)}\sum_h{e^{-{E(v,h|\theta)}}}$
同理，可以获得每个节点的激发函数,RBN层内节点不连接，同一层各节点独立分布。

p (v i = 1 | h, θ) = σ (a i + \sum j h j W i j)

$p(v_i=1|h,\theta) = \sigma(a_i+\sum_j{h_j W_{ij}})$

p (h i = 1 | v, θ) = σ (b i + \sum i v i W i j)

$p(h_i=1|v,\theta) = \sigma(b_i+\sum_i{v_i W_{ij}})$

对比散度RBM参数训练

学习RBM的任务是求出参数 $\theta$ 的值, 以拟合给定的训练数据。参数 $\theta$ 可以通过最大
化RBM在训练集昨假设包含T个样本昩上的对数似然函数学习得到, 即

Θ * = a r g max θ (ξ (θ)) = a r g max θ \sum t = 1 T l o g p (v t | θ)

$\Theta^* = {arg\max}_{\theta}({\xi(\theta)}) = {arg\max}_{\theta}{\sum_{t=1}^{T} {logp(v^{t}|\theta)}}$
Hiton提出了RBM的一个快速学习算法, 即对比散度(Contrastive Divergence)。与吉布斯采样不同, CD指出当使用训练数据初始化

v0 $v_0$ 时, 我们仅需要使用k步吉布斯采样便可以得到足够好的近似。在CD算法一开始，可见单元的状态被设置成一个训练样本，并利用式

p(h|v,θ) $p(h|v,\theta)$ 计算所有隐层单元的二值状态。在所有隐层单元的状态确定之后,来确定第i个可见单元

vi $v_i$ 取值为1的概率,进而产生可见层的一个重构。

输入:一个训练样本 $m_0$ ,隐层单元个数 $m$ ,学习率$$,最大训练周期$T$.
输出:连接权重矩阵W、可见层的偏置向量a、隐层的偏置向量b.
训练阶段:
- 初始化可见层单元的初始状态 $v1=x_0;W a$ 和b为随机的较小数值。
- For t=1,2…T
- For j=1,2..m(对所有隐层单元)
  - 计算隐层节点分布 $p(h_{1j}=1|v_1)$ , p(h1j=1|v1)=σ(