基于热度的动态副本创建算法

基于热度的动态副本创建算法

动态副本创建算法(DRCA)基本思想:

在文件访问的过程中,实时的计算文件在统计周期内的访问频率,通过历史访问频率推算出文件当前的访问需求,最后按照要求动态的调整文本副本的数量。

DRCA分为副本的复制、保持、和删除三种情况。

  • 复制阶段:文本的副本被复制到新的节点(即没有该副本的节点),增加副本的个数,为及时响应该文件的大量访问请求做准备,这也会占用集群的计算资源和网络宽带资源。
  • 保持阶段:文件副本的个数保持不变,所有副本一起响应该文件的访问请求,为用户提供数据服务。
  • 删除阶段:文件访问需求量小的时候,在保证存储可靠性的前提下删除文件的部分副本,为集群节省磁盘空间

副本创建的影响因子分析:

在副本创建的过程中影响因素用两类参数来表示:

  • 一种是动态的参数,即随着环境的变化而发生改变的因素,主要有文件的访问频率,文件的热度等;

    • 文件访问热度:在分布式文件系统中,文件是以特定大小数据块的形式存储的,所以某个文件被访问时,它的各数据块都会被访问,而访问每个数据块时,n都会进行计数。所以在衡量文件被需求的程度时,该文件在存储时被分成的数据块大小也需要考虑。用户在访问文件时,会先向NameNode请求元数据(此时的计数器会加1),从而得到文件数据块的位置信息(既所访问文件的数据存储于哪些DataNode),再向对应的DataNode请求数据。文件i在j时刻的热度为 hij=@*Fj/(Si+1);i,j为正整数

      • @为常量,其作用是对文件热度的数值进行归一化
      • Sj表示文件i的大小对其文件热度的影响,由该文件的大小sj和分布式文件系统存储数据块的大小来确定的,表示为:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gubJ18MT-1669191764741)(C:\Users\14652\Desktop\照片\笔记\snipaste20221123_112948.jpg)]si为文件i的大小,s0为分布式文件系统存储数据块的带下,[si/s0]表示不大于si/s0的最大整数(也就是小于等于si/s0,%是求余运算)
      • Fj表示该文件被访问的频率对其j时刻热度的影响,由该文件在最近l个统计周期内的访问频率以及权值来确定的,表示为:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SVWUQmRe-1669191764744)(C:\Users\14652\Desktop\照片\笔记\snipaste20221123_150812.jpg)]l为常数,表示文件在过去l个统计周期内被访问频率对其j时刻的热度有影响,取值大小视情况而定。fm(其中,m=1,2……,k-1或者k-l,k-l+1,……,k-1)表示文件在第m个统计周期内的访问频率大小, β \beta βm(其中,m=1,2……,k-1或者k-l,k-l+1,……,k-1)表示fm对文件j时刻热度的影响程度,满足 ∑ m = 1 k − 1 β m = 1 \sum_{m=1}^{k-1}{\beta_m} =1 m=1k1βm=1 或者 ∑ m = k − l k − 1 β m = 1 \sum_{m=k-l}^{k-1}{\beta_m}=1 m=klk1βm=1
    • 文件访问频率:即文件在单位时间内被用户访问的次数,这是由统计周期内文件被访问的次数和统计周期的时间来确定的。

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-04OhbVnH-1669191764749)(C:\Users\14652\Desktop\照片\笔记\snipaste20221122_213633.jpg)]

      在文件访问频率算法流程图中,使用了在一定统计周期内文件访问次数计数器和统计周期所花费时间的 计 时器,首先当计数器为1时表示统计周期的开始,当计数器的值达到a(a是人为设置的一个常数)时表示 一个统计周期的结束,而计时器则计算出各统计周期所持续的时间。为了应对某些文件迟迟不能完成一个 统计周期(即访问频率极低)的情况下,增加了超时判断,若文件的一个统计周期持续了b(b是常数),意思是说当一个文件第一次访问之后,到第二次被访问之间的持续时间达到了b还没完成计数器a的值,则判 定为超时,直接进入下一个统计周期。某文件在第k个统计周期内的访问频率为 fk = n/t; k为正整数

      其中:n为该文件在第k个统计周期内被访问的次数,在本文中n=a;t为该文件在此统计周期内所持续的时间。

  • 二种是静态的参数,既不会随着环境变化而发生改变的因素,主要有文件系统存储数据块的大小和文件的的大小

    • 文件静态影响因子:在副本动态创建算法中,依据的动态参数是文件热度,但是文件大小的影响也不可以忽略:副本复制阶段,文件的大小直接影响到对磁盘空间和网络宽带占用的多少;副本删除阶段,文件的大小决定了对磁盘空间容量的贡献程度。总之文件的大小影响着副本动态创建所产生的价值,本文用文件的静态因子表示,文件i的静态影响因此为 q i = β / s i ; i 为 正 整 数 q_i ={\beta/s_i}; i为正整数 qi=β/si;i

      其中: β {\beta} β为常量,其作用是对文件静态影响因子的数字进行归一化;si为文件i的大小

    • 文件副本动态创建值:本文中的动态副本创建主要指副本的复制和删除,既副本的数量的改变,为了量化表示用户对文件副本数量的需求,本文提出了副本动态创建值的概念,文件i在j时刻的副本动态创建值为: v i j = h i j ∙ q i , j 为 正 整 数 v_{ij} = h_{ij}{\bullet}q_i,j为正整数 vij=hijqij 其中: h i j h_{ij} hij表示文件i在j时刻的热度值,qi表示文件i的静态影响因子。

动态副本创建算法描述

​ 动态副本创建算法(DRCA)由计算文件在统计周期内的频率、分析文件的访问需求,动态调整副本个数3个阶段组成;用文件访问频率算法计算出文件在各统计周期内的访问频率;根据历史访问频率推算出当前的访问需求,用文件的副本动态创建值表示;副本的动态创建值——副本个数对应表为依据,通过对比副本现有的数量和需求数量,决定是否调整文件副本的个数,进而执行相应的副本复制、删除操作或者保持副本的数量不变。DRCA流程如图4所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sl3PFPb5-1669191764755)(C:\Users\14652\Desktop\照片\笔记\snipaste20221123_160850.jpg)]

实验设置

​ 在实验中,结合具体环境境和测试需求,将相关参数设定如 下: a = 30,b = 1 200 s,α = 1,β = 64 MB,l = 3, [βk-3 βk-2 βk-1] = [0. 2 0. 3 0. 5],副本动态创建值-副 本需求个数对应表如表 2 所示。

​ 表 2 副本动态创建值与副本个数对应表

副本动态创建值副本需求个数
大于55
3~53
小于33

为比较副本创建算法对需求程度不同的文件的影响,实 验按照用户对文件的需求程度( 即文件访问热度) 分为 9 组, 分别为每分钟 10 次、每分钟 20 次、每分钟 30 次、每分钟 40 次、每分钟 50 次、每分钟 60 次、每分钟 70 次、每分钟 80 次、 每分钟 90 次; 同时,为了探寻副本创建算法对不同大小的文 件的影响,实验又使用了 6 个不同大小的文件,文件 1 ~ 文件 6 的大小分别为0. 64 MB、6. 4 MB、64 MB、128 MB、320 MB、 640 MB。6 的大小分别为0. 64 MB、6. 4 MB、64 MB、128 MB、320 MB、 640 MB。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值