Localized Small Cell Caching: A Machine Learning Approach Based on Rating Data

Localized Small Cell Caching: A Machine Learning Approach Based on Rating Data

Abstract

  • What is known:
    Background:

Caching the most popular contents at the wireless network edge such as small-cell base stations (SBSs) is a smart way of reducing duplicated content transmissions and offloading the mobile data traffic in the network backhaul.

结合MEC的特征与定义:

The main feature of MEC is to push mobile computing, network control and storage to the network edges (e.g., base stations and access points) so as to enable computation-intensive and latency-critical applications at the resource-limited mobile devices.

可以看出cache in small cell(UDN)和MEC的特征相符,可以将背景迁移。

Methods:
Currently, most small-cell caching strategies are conceived, designed, and optimized based on the global content request probability (GCRP)

  • What is not known:
    With very limited consideration of the individual content request probability (ICRP) reflecting personal preferences.

  • What we do:
    Goal: Enable more efficient wireless caching.
    Our method:

We propose a novel localized deterministic caching framework, drawing upon the recent advances in recommendation systems based on machine learning techniques. By introducing the concept of the rating matrix, we first propose a new Bayesian learning method to predict personal preferences and estimate the ICRP.

ICRP—>Caching strategy->maximizing the system throughput, mimimizing the download latency.

Caching strategy: deterministic caching algorithm based on reinforcement learning to optimize the content placement.

Other interests: we extend the framework to enable device-to-device (D2D) connections to further reduce the down- load delay, and also design a feedback mechanism to improve the accuracy in the ICRP estimation.
(这一点可以利用一下,结合两个数据集分别作为线上传输与D2D链接,丰富整个框架)

Introduction

Background: 流量爆炸->高需求内容重复传输->research in CDNs/Fog computing and Mobile Edge Computing->更具体的small cell caching

wireless caching: 可以分为两个部分

  • content placement phase (caching contents) :depends on the level of MU demands and is limited by the cache memory size
  • content delivery phase (serving requests) : performed upon the actual MU requests subject to the downloading rate.

[9] J. Li et al., “On social-aware content caching for D2D-enabled cellular networks with matching theory,” IEEE Internet Things J., to be published. [Online]. Available: https://ieeexplore.ieee.org/ document/8025784
[10] A. Liu and V. K. N. Lau, “Exploiting base station caching in MIMO cellular networks: Opportunistic cooperation for video streaming,” IEEE Trans. Signal Process., vol. 63, no. 1, pp. 57–69, Jan. 2015.

学习他的写法:
关于cache的参考文献:
Although the twophases can be designed separately [11], [12], the majority of the existing work [13]–[21] jointly considers the two phases for wireless caching designs.

Caching strategies(具体):
Modeling the distributions of SBSs and MUs as homogeneous Poisson point processes (HPPPs)

  • 将SBSs与Mobile users的分布建模为同构的泊松点过程,[13][15]中的作者通过概率缓存对平均速率和中断概率进行了总体性能分析。
  • 通过有效的统计/实时信道信息,[16]和[17]中的作者通过缓存节点的位置优化了流行内容的放置。
  • [18]综合考虑了缓存、路由、信道分配,达到了46%的系统收益。
  • 结合D2D的缓存策略:developed in [19], [20], and [22], where each mobile terminal serves as a caching device and exchanges information with its peer.

综合上述,我们总结缓存问题的具体实现与存在的问题:

要确定应该在哪个SBS中缓存哪些内容,必须准确地预测用户内容请求概率(CRP)。在大多数研究中,CRP被假定为等同于内容流行度。例如,在23]和]24]中,排名内容的流行度由Zipf分布建模,然后观察到通常只有一小部分内容会被大多数MUs重复访问。这种CRP模型已被广泛应用于小单元缓存网络(small cell caching networks),以优化内容放置[5]、[6]、[13]、[14]、[25][27]。

这种方法基于所有用于具有相同的CPR(global CPR)的假设,因此此类方法为cell-level的方法,利用统一的内容概率

但由于以下原因,这种方法不适用于UDN下small cell的缓存:
1、Number of MUs managed by an SBS is typically very small, usually in the order of tens. general的方法对一个small cell下的用户可能是全部无效的。
2、移动用户在文化、性别、年龄和职业上的多样性,会导致个人偏好在内容上的高度多样化。

个人想法:

2、随着移动网络的发展,用户可享受的通讯服务越来越多,现实生活中,用户对内容的需求会随着时空的变化不断变化,由其在udn with small cell的架构下,空间粒度变小,这种时空相关性将更加重要。(临近的用户对内容的需求可能类似)全局的内容流行度只考虑了历史时间因素,对空间的考虑不足。
3、随着网络的发展,不同用户对服务的时延、内容的相关度要求不同(随着当下推荐系统的火爆,用户有时只需要与所需内容相关的内容,而对时延的要求逐渐提高,尤其在高清短视频行业,用户希望在单位时间内阅览更多的内容,这时就需要一种带推荐的模糊/soft但快速的缓存),这需要缓存能意识到user-level的内容需求,而不是全局的内容流行度。
以上3种原因导致基于GCPR的,cell-level的缓存方法在UDN架构下效果得不到较好的应用,需要更加精细的内容放置预测和缓存策略。

为此作者提出了将individual CRPs(ICRPs)融入缓存设计,即设计了一种局部缓存。这种缓存机制的实现引入了两种问题,这在之前的工作中还没有得到实现。(which are not clearly addressed in the literature).
(学习他的写法),这是另一种提出challenges的方法,先说明之前的方法(时间顺序),再进行分析总结,提出问题所在,再说明解决思路,然后说明这种思路需要解决的问题。

为解决第一个问题,作者借鉴了recommendation systems的知识,

In particular, recommendation systems is a class of information fil- tering facility that evaluates consumer preferences and creates personalized recommendations.

因此,推荐系统提供了一种评估SBS中MUs的个人偏好的潜在途径,为评估ICRP奠定了基础,以便更有效地利用本地化缓存。

Therefore, rec- ommendation systems provide a potential avenue to evaluating personal preferences of MUs in an SBS, laying the founda- tion of estimating ICRPs to be exploited by more efficient localized caching.

为解决第二个问题,作者首先说明根据local requirements,利用ICRP实现内容放置,,这需要解决联合优化的问题(NP-hard),因此,作者设计了一种基于强化学习的迭代方法,通过模拟MU(动作)要求的确切内容,然后观察结果的奖励或惩罚。

本文的贡献:
1、提出一种贝叶斯学习方法来预测用户偏好,得到ICRP。该种贝叶斯方法被称为constrained Bayesian probabilistic maxtrx factorization(CBPMF),其考虑评分矩阵的不均衡并提供高准确率的预测。预测结果有助于评价个人偏好,并提出了一种新的方法,通过转换局部和全局评级信息来估计ICRP
2、提出一种基于强化学习的deterministic learning caching algorithm DCA算法,在其中设计了一种环境反馈模式综合考虑ICRP和物理距离。该算法可以动态调整每个内容的缓存概率,并确定哪些内容应该被准确缓存直到收敛。
3、扩展了D2D链接进一步减少下载延迟,设计了一种反馈机制来提升预测精度
4、根据仿真结果,所提出的CBPMF在RMSE表现上好于现有模型,同时,基于ICRP和缓存策略的DCA在hit rate与system throughoutput上显著超过现有方法,对比随机缓存达到了90%的吞吐量收益。

SYSTEM MODEL

  • macro base station (MBS):1
  • SBSs:N
  • MUs in each SBS :M

请添加图片描述

系统概览:In this system, a certain fraction of storage in each individual SBS is used to cache popular contents. When an MU requests a content, it can directly download from its associated SBS if such requested content is cached; otherwise, this MU will get the requested content from the MBS.

A. Network Model
SBSs: V = V 1 , V 2 , . . . , V N V={V_1, V_2, ..., V_N} V=V1,V2,...,VN equal transmission power P S B S P_{SBS} PSBS
MUs in V x V_{x} Vx: Y = Y 1 , Y 2 , . . . , Y M Y={Y_1, Y_2,...,Y_M} Y=Y1,Y2,...,YM same transmission power P M U S P_{MUS} PMUS
spatial distributions of the SBSs and MUs:follow two independent homogeneous Poisson point processes (HPPPs)
忽视相互影响:the SBSs and MBS are working in the orthogonal channels, thereby eliminating the inference among them.

bandwidth of SBSs’ downlink channels for content dissemination: W Hz
MBS: W 0 W_0 W0

考虑到信噪比(SINR), V 1 V_1 V1 m m m-th用户的通道容量(channel capacity)的计算:

请添加图片描述

h n , m h_{n,m} hn,m为信道受益,服从指数分布。
σ 2 \sigma^2 σ2为噪声
R 1 , m − α R_{1,m}^{-\alpha} R1,mα为路径损失, R n , m R_{n,m} Rn,m为物理距离, α \alpha α为路径损失指数。
MBS与第 m − t h m-th mth的信道容量为 C 0 , m C_{0,m} C0,m

B. Caching Procedures
三步:
1、MBS predicts personal preferences for all MUs, and estimates the CRP. Then, the MBS assigns the ICRPs for the MUs in V 1 V_1 V1.
2、 V 1 V_1 V1在非高峰期从MBS获取内容并放置,这期间 Q S B S Q_{SBS} QSBS的内容将被替换(限于内存规模)。这个过程需要设计基于ICRP的caching strategy,在缓存流程完成后 V 1 V_1 V1可以服务MUs的下载请求。
3、当MU请求内容时,若 V 1 V_1 V1已缓存,可以直接从 V 1 V_1 V1获得,否则MU将从MBS获取。

C. Indicidual Content Request Probability
content: F = F 1 , F 2 , . . . , F F F={F_1, F_2, ..., F_F} F=F1,F2,...,FF
内存容量 Q M U < Q S B S < F Q_{MU}<Q_{SBS}<F QMU<QSBS<F
P f m P_f^m Pfm:m-th用户对内容f的需求概率
P m = P 1 m , P 2 m , . . . , P F m P^m={P_1^m, P_2^m,...,P_F^m} Pm=P1m,P2m,...,PFm:用户对不同内容的需求概率。
传统工作假设 P 1 = P 2 = . . . = P M P^1=P^2=...=P^M P1=P2=...=PM

D. Problem Formulation
fianl goal: maximize the local system throughput in V 1 V_1 V1
请添加图片描述

其中 b 1 f b_1^f b1f表示第f个内容是否被缓存到 V 1 V_1 V1

由于我们需要确定 F F F组内容中哪些需要被精准缓存,搜索的复杂度为 O ( 2 F ) O(2^F) O(2F),因此上式为NP-hard问题。

未解决这一问题,作者提出了如下的解决方法:

  • 提出了一种新的基于推荐系统的贝叶斯机器学习方法用于估计 P m P^m Pm
  • 提出一种基于深度学习并利用 P m P^m Pm的局部确定性缓存放置策略DCA

PROPOSED ICRP ESTIMATION SCHEME

Overview of Recommendation System

请添加图片描述

Matrix Factorization (MF):
R = A T B R = A^TB R=ATB
A = [ a 1 , . . . , a I ] ∈ R d × I A = [a_1, ..., a_I] \in R^{d\times I} A=[a1,...,aI]Rd×I B = [ b 1 , . . . , b F ] ∈ R d × F B = [b_1, ..., b_F] \in R^{d\times F} B=[b1,...,bF]Rd×F

得到A和B的方法可以通过最小化正则平方误差损失函数:
请添加图片描述

其中 δ i , f ∈ 0 , 1 \delta_{i,f} \in {0,1} δi,f0,1表示第i个MU是否对第f个内容进行评分。 λ \lambda λ为正则参数。

解决(4)的常用方法包括:

  1. stochastic gradient descent (SGD) algorithm 随机梯度下降法
    弊端:需要手动确定 λ \lambda λ,导致数据过拟合,因为MF-SGD对参数进行单点估计,不能准确预测未知评分。
  2. alternative(备选方案): Bayesian probabilistic matrix factorization (BPMF) 贝叶斯概率矩阵分解
    方法:根据高斯先验和贝叶斯推断计算A和B
    弊端:在本文中,一些MUs可能对小单元缓存场景中的内容给出很少的评级(称为罕见的MUs),从而导致不准确的预测评级。这促使我们考虑R中的不平衡问题,并开发了一种约束BPMF (CBPMF)方法,以提高我们预测未知评级的准确度。

The Proposed CBPMF Method

首先先补充一些BPMF贝叶斯矩阵分解算法的知识:

贝叶斯概率矩阵分解理解

前提假设:

1、用户特征向量,电影特征向量均服从高斯分布(正态分布)先验分布

2、均值和协方差矩阵服从高斯-威沙特分布的先验分布

在这里插入图片描述
贝叶斯概率矩阵分解原理矩阵元素被假设服从高斯分布,为了求解矩阵分解的隐性因子矩阵,依据贝叶斯准则,需进一步对模型参数和超参数设置共轭先验。具体如下:

在这里插入图片描述

在所设计的贝叶斯网络中,对模型参数和超参数求后验分布,交替更新即可完成贝叶斯概率矩阵分解。
在这里插入图片描述
在这里插入图片描述

本文提出的算法:

在这里插入图片描述
在这里插入图片描述

可以看出本文所提出的CBPMF方法在传统BPMF的基础上加入了潜在约束矩阵 C ∈ R d × F C \in R^{d\times F} CRd×F,其目的是用于约束A这一用户特征向量,原因是在本论文考虑的情境下用户评分过少,会导致基于A的MF准确率降低。

2)预测(参数计算):
通过对边际条件的概率密度函数积分,可以得到直接计算 r i , f r_{i,f} ri,f的公式:
在这里插入图片描述
但这种计算方法需要计算后验项 p ( A , B , C ∣ R , Θ A , Θ B , Θ C ) p(A,B,C|R, \Theta_A, \Theta_B, \Theta_C) p(A,B,CR,ΘA,ΘB,ΘC).

常用的方法是利用蒙特卡洛马尔科夫链Markov chain Monte Carlo (MCMC)方法求得近似推论。
由于图3中的CBPMF模型是基于共轭分布的层次结构,这促使我们使用Gibbs sampling algorithm在MCMC中来迭代的更新潜在向量。这样一来 r i , f r_i,f ri,f可被近似表示为:
在这里插入图片描述

其中 a i ( l ) a_i^{(l)} ai(l)表示第l层采样,L为迭代次数。这种近似需要计算MU和内容特征向量上的条件分布,以及超参数上的条件分布。

3) Bayesian Inference:
即利用Gibbs Sampling计算贝叶斯网络中的参数与超参数,与基础的BPMF解法类似,整个过程分为两步:
s1: 更新特征向量 a i , b f , c k a_i, b_f, c_k ai,bf,ck
在这里插入图片描述
上式基于:所估计的特征向量均服从条件正态分布,其证明方法类似于基础的贝叶斯估计法,找到与要估计的参数相关的式子,然后根据其条件概率密度函数的形式说明其服从高斯分布:
在这里插入图片描述

s2: 更新超参数$
在这里插入图片描述
上式基于:所估计的超参数服从Gaussian-Wishart分布,其证明方法如下:


在这里插入图片描述

在得到特征向量与超参数的更新后,作者对比了CBPMF与MF-SGD的复杂度,其中MF-SGD的复杂度为 O ( ∣ Ω ∣ d ) O(|\Omega|d) O(Ωd),其中 Ω \Omega Ω为R中已知评分的数量。

CBPMF的复杂度为 O ( Ω d 2 + ( I + F ) d 3 ) O(\Omega d^2 + (I+F)d^3) O(Ωd2+(I+F)d3),这远大于MF-SGD的复杂度。但作者认为,在本论文所提出的框架中,算法部分由(macro)MBS实现,其复杂度不会成为限制。

算法形式的特征矩阵与参数更新规则如下所示:
在这里插入图片描述

C. ICRP的评估
基于所提出的CBPMF,可以准确预测评分矩阵 R ^ \hat{R} R^,本文提出将ICRP建模成如下的Zipf分布:
在这里插入图片描述

其中 O f m O_f^m Ofm为第m用户对第f个内容的评分顺序。 O m = [ O 1 m , . . . , O F m ] O^m = [O_1^m,...,O_F^m] Om=[O1m,...,OFm] ω \omega ω为Zipf分布的偏态指数

这种ICRP的评估方法有三种含义:

  • 现实的内容需求隐含满足Zipf分布
  • 对于所有用户,ICRP具有相同的偏度指数 ω \omega ω,同时,我们假设在R中由MUs评定的每个内容的数量也遵循具有相同ω的Zipf分布(即大部分内容没有被用户评分)。这为从R中估计ω提供了一个新的实用途径。
  • 对于每个用户 O m O^m Om的评分顺序是不同的,这反映了个人偏好。

O m O^m Om的获得方法:
Case1: 若m-th用户在 V 1 V_1 V1下活跃, O m O^m Om可直接获得,例如,若评分满足:
r m , 3 > r m , 1 > r m , F > . . . > r m , 2 r_{m,3}>r_{m,1}>r_{m,F}>...>r_{m,2} rm,3>rm,1>rm,F>...>rm,2,则 O m = [ 2 , F , 1 , . . . , 3 ] O^m = [2,F,1,...,3] Om=[2,F,1,...,3] (原文写的是 O m = [ 3 , 1 , F , . . . , 2 ] O^m = [3,1,F,...,2] Om=[3,1,F,...,2],个人感觉不对)

Case2: 若m-th用户在 V 1 V_1 V1下沉默,则会通过 V 1 V_1 V1下全部 M 1 M_1 M1个活跃用户得到对内容的评分均值: r ‾ l o c a l , f \overline{r}_{local,f} rlocal,f,同时计算全部 I I I个用户的平均得分 r ‾ g l o b a l , f \overline{r}_{global,f} rglobal,f。最终 r m , f = ( 1 − Φ ) r ‾ g l o b a l , f + Φ r ‾ l o c a l , f r_{m,f}=(1-\Phi)\overline{r}_{global,f} + \Phi \overline{r}_{local,f} rm,f=(1Φ)rglobal,f+Φrlocal,f

此外作者提到可用 r ‾ g l o b a l , f \overline{r}_{global,f} rglobal,f 代表一般文章中假设的 O 1 = O 2 = . . . = O M O^1=O^2=...=O^M O1=O2=...=OM来获得GCRP

IV 确定性缓存算法

学习他的写法:用于描述直观的做法
A heuristic way is to use probabilistic caching. 但此种方法只可以根据内容概率随机地缓存,不能最大化缓存收益。

为此,受到discrete learning automata(DLA)的启发,作者提出了Deterministrc Caching Algorithm即确定性缓存算法。
DLA是一种强化学习算法,其目的是根据每轮迭代仿真出的用户需求尝试缓存action,并计算reward/penalty,经过多轮迭代由SBS确定需要精确缓存的内容。

下面介绍DLA:
A. Discrete Learning Automaton
DLA旨在在每次迭代中从一组行动集 F = [ F 1 , F 2 , . . . , F F ] F=[F_1, F2,...,F_F] F=[F1,F2,...,FF]中选择一个行动。在每次迭代 t t t下,都会有一组行动概率向量 P ( t ) = [ p 1 ( t ) , p 2 ( t ) , . . . , p F ( t ) ] P(t)=[p_1(t),p_2(t),...,p_F(t)] P(t)=[p1(t),p2(t),...,pF(t)]。之后根据环境反馈,我们可以计算出一组动作中每个action的收益 d ( t ) = [ d 1 ( t ) , d 2 ( t ) , . . . , d F ( t ) ] d(t)=[d_1(t),d_2(t),...,d_F(t)] d(t)=[d1(t),d2(t),...,dF(t)],根据该收益可以进一步得到下一轮迭代的动作执行概率 P ( t + 1 ) P(t+1) P(t+1)。在每次迭代过程中,都有一个操作是从库中选择要缓存的内容,这个操作将产生奖励或惩罚。

DLA遵循选择更高收益行为的原则,其中 P ( t ) P(t) P(t)具有如下的更新规则:
在这里插入图片描述

  • 其中 S ( t ) S(t) S(t)表示比第t次迭代具有更高收益的行动数目
  • Δ = 1 / F δ \Delta = 1/F\delta Δ=1/Fδ 其中 δ \delta δ表示分辨率参数,其决定了迭代次数和奖励概率之间的权衡。
  • u为单位向量,其元素均为1
  • g g g为方向向量:
    在这里插入图片描述

公式(13)的操作可被解释为:在每次迭代中,S(t)中的行动概率将会发生如下变化:
在这里插入图片描述

即增加最大收益的行动概率,减小其他收益的行动概率,所有行动概率和为1。

收益计算:
在这里插入图片描述

其中 Z i ( t ) Z_i(t) Zi(t)记录了选择第i次行动的次数, W i ( t ) W_i(t) Wit为收益, β ( t ) ∈ { 0 , 1 } \beta(t) \in \{0,1\} β(t){0,1}用于表示是否存在正反馈。

DCA是在DLA的基础上改变了environment feedback的计算方式,如下:
B. Environment Feedback
本文定义缓存f-th内容对m-th用户的收益为:
E R 1 , m f = τ 1 × P f m + τ 2 × x 1 , m ER_{1,m}^f = \tau_1 \times P_f^m + \tau_2 \times x_{1, m} ER1,mf=τ1×Pfm+τ2×x1,m

其中 τ 1 \tau_1 τ1 τ 2 \tau_2 τ2为可调节参数,且 τ 1 + τ 2 = 1 \tau_1 + \tau_2 = 1 τ1+τ2=1 x 1 , m x_{1, m} x1,m表示 V 1 V_1 V1(基站)与m-th用户之间的物理影响。

Intuitively speaking, the influence of Y to V1 will be huge if their distance is small [41].
x 1 , m = 1 1 + r 1 , m x_{1,m} = \frac{1}{1+r_{1, m}} x1,m=1+r1,m1
其中 r 1 , m r_{1, m} r1,m V 1 V_1 V1与m-th MU间的距离。

之后,我们用 Ψ m R \Psi_m^R ΨmR表示 m-th用户在t-thiteration action的收益, Ψ m P \Psi_m^P ΨmP表示惩罚:

在这里插入图片描述

对于 V 1 V_1 V1下的M个用户,缓存f-th content的环境feedback为:

F 1 f = ∑ m = 1 M ( Ψ m R + Ψ m P ) F_1^f = \sum_{m=1}^M (\Psi_m^R + \Psi_m^P) F1f=m=1M(ΨmR+ΨmP)
F 1 f > 0 F_1^f > 0 F1f>0,则有 β ( t ) = 1 \beta(t) = 1 β(t)=1,之后就可以根据收益计算公式更新d

C. 收敛性证明
参考[38]的工作,需要分析算法的moderation and monotonicity properties (节制和单调性)
证明见Appendix C
根据这两个性质,马尔科夫链pm(t)是一个子鞅[38],并通过子鞅收敛定理[42]。该算法可以保证算法的收敛性。

V. Extension and Discussion

A. D2D Connections
如图1所示,D2D可以有效减少MU与 V 1 V_1 V1间的传输延迟。在本小节中,我们提出了一个新的标准,以便我们不考虑MUs之间的隐私和连接的动机。

作者提出利用用户特征矩阵 A A A来计算用户间的相似度:
c o s ( a i , a j ) = a i T a j ∣ ∣ a i ∣ ∣ ∣ ∣ a j ∣ ∣ , i , j ∈ 1 , . . . , M 1 , i ! = j . cos(a_i, a_j)=\frac{a_i^Ta_j}{||a_i|| ||a_j||}, i,j \in 1, ..., M_1, i!=j. cos(ai,aj)=aiajaiTaj,i,j1,...,M1,i!=j.

当满足以下条件时,i-th与1j-th MU间会产生D2D链接:

  • i-th用户的请求内容在j-th存在缓存
  • c o s ( a i , a j ) > η 1 cos(a_i, a_j) >\eta_1 cos(ai,aj)>η1
  • C i , j > η 2 C_{i, j} > \eta_2 Ci,j>η2

即满足一定的阈值条件下允许D2D链接的发生。

B. Feedback From Silent MU
作者认为在 V 1 V_1 V1下除了 M 1 M_1 M1个活跃用户还有 M 2 M_2 M2个沉默用户没有提供评分,这会导致ICRP的计算存在误差。
因此作者提出利用用户的下载历史 D 1 D_1 D1 D 2 D_2 D2,以及已有评分矩阵 R 1 R1 R1来优化对 R 2 R_2 R2的评价。

D = D 1 ⋃ D 2 D = D_1 \bigcup D_2 D=D1D2,利用所提出的CBPMF矩阵分解算法,

D = G T H D=G^TH D=GTH

得到评分用户与沉默用户的潜在向量
G = [ g 1 , 1 , . . . , g 1 , M 1 , g 2 , 1 , . . . , g 2 , M 2 ] G = [g_{1,1}, ..., g_{1,M_1}, g_{2,1},...,g_{2,M_2}] G=[g1,1,...,g1,M1,g2,1,...,g2,M2], 再利用潜在向量,得到相似度,结合 R 1 R_1 R1计算沉默用户的评分矩阵 R 2 R_2 R2

在这里插入图片描述

VI. Performance Evaluation and Discussion

仿真参数设置
Num of SBSs: 10
MUs in each cell: 30
以上两项参数的分布满足HPPPs
Size for each content: 300-500MB

在这里插入图片描述

对比Baseline:

  • Random Caching (RC): randomly choosing at most 20 contents to cache.
  • Probabilistic Caching with GCRP (PC-GCRP): cache the most popular contents based on the GCRP
  • Probabilistic Caching with ICRP (PC-ICRP): probabilistically caching the most popular contents according to the estimated ICRP obtained in Section III.
  • DCA with GCRP (DCA-GCRP): The proposed DCA utilizes the GCRP to optimize the content placement on SBSs.
  • DCA with ICRP: The proposed way above.

B. Evaluation Results

The Accuracy in Estimating the ICRP:

dataset: real-life training dataset from the MovieLens 1M dataset [40]

[40] T.-K. Liu, D. H. Al-Janan, H.-S. Shen, and P.-W. Hsueh, “Optimizing adjustable parameters of servo controller by using unineuro-HUDGA for laser-auto-focus-based tracking system,” IEEE Access,vol.5, pp. 823–832, 2017.

在这里插入图片描述

通过对比,证明了CBPMF算法相较于MF-SGD和BPMF具有更高的rating预测准确率。

为得到Section III 所述的ICRP及GCRP,作者将首次CBPMF算法计算得到的全部rating评分降序排序,从而求出skewness exponent ω = 0.48 \omega = 0.48 ω=0.48 .

之后按照Section III-C所说明的方法计算得到ICRP与GCRP.

DCA中一些超参数的设定:
请添加图片描述

DCA中的学习率参数 δ \delta δ : Δ = 1 / F δ \Delta = 1/F \delta Δ=1/Fδ
为均衡收敛迭代次数与迭代平均收益,作者选择将 δ \delta δ设置为1,同时令 τ 1 = τ 2 \tau_1 = \tau_2 τ1=τ2

吞吐率对比
请添加图片描述

  • 通过对比DCA-GCRP,DCA-ICRP与其余模型,证明了DCA算法的优势。
    原因分析:

This is because compared to RC, PC-GCRP and PC-ICRP, the proposed DCA utilizes machine learning techniques to smartly place contents that are of interest to MUs in SBSs, and thus increase the throughput.

  • 通过分析DCA-ICRP VS DCA-GCRP,以及 PC-ICRP VS PC-GCRP,证明了ICRP计算的有效性。

This is because the ICRP can accurately capture the individual preference of content viewing, which in turn leads to fast content downloading.

之后作者对比了不同MU数量下,不同缓存策略MU的平均吞吐量:
请添加图片描述

可以看出随着用户数增多,个算法的吞吐量都有所增加。

This is because with more MUs, more cached contents will be requested by them, thus leading to a higher throughput.

除了吞吐量,作者同样对比了不同缓存策略的hit rate.
请添加图片描述

Due to the strong correlation between the hit rate and system throughput. In more detail, if the cached contents are requested by MUs, both the hit rate and the system throughput will increase, as a fast content download can be operated from SBS to MUs.

之后,作者通过实验说明了所提出的D2D链接与Download Feedback的作用。
请添加图片描述

值得一提的两点:

  • 关于加入D2D后,整个系统的时延、吞吐量如何计算,文中没有给出详细的解释。
  • 在没有Download Feedback的情况下,Fig. 11中蓝线的效果差于DCA-GCRP

C. Discussion
作者说明,本文关注于静态的网络系统,但所提出的方法同样可以适用于实时移动的网络架构(mobile scenario)。
为此,需要SBSs之间交换用户位置与评分信息(评分信息不是上传到MBSs上进行统一计算的吗?),这里应该是用户偏好信息,用于计算reward。

总的来说,这篇论文没有给出太多新的想法,其主要贡献在于结合了推荐系统的知识,从评分角度得到用户偏好,并给出了基于用户偏好实现RL-basd缓存的一套方法,是值得入门学习recommendation + cache的一整套方法论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值