彻底玩转分布式缓存-初识缓存

1.缓存的概念

在了解缓存之前,我们先了解几个存储方式外存,内存和缓存的概念

1.1.外存

外储存器是指除计算机内存及 CPU 缓存以外的储存器,此类储存器一般断电后仍然能保存数据。

常见的外存储器有硬盘、软盘、光盘、U 盘等,一般的软件都是安装在外存中(windows 系统指的是 CDEF 盘, Linux 系统指的是挂载点)。 在这里插入图片描述

1.2.内存

内存是计算机中重要的部件之 运行都是在内存中进行的,因此内存的性能对 内存(Memory)也被称为内存储器,其作 是用于暂时存放 CPU 中的运算数据,以及 与硬盘等外部存储器交换的数据。只要计算机在运行 CPU 就会把需要运算的数据 。

它是与 CPU 进行沟通的桥梁。计算机中所有程序的机的影响非常大。

调到内存中进行运算,当运算完成后 CPU 再将结果传送出来,内存的运行也决定了计 算机的稳定运行,此类储存器一般断电后数据就会被清空。
在这里插入图片描述

1.3.缓存

缓存就是把一些外存上的数据保存到内存上而已,怎么保存到内存上呢,我们运行的所有程序,里面的变量值都是放在内存上的,所以说如果要想使一个值放到内存上,实质就是在获得这个变量之后,用一个生存期较长的变量存放你想存放的值,在 java中一些缓存一般都是通过 map 集合来做的。

广义的缓存是把一些慢存(较慢的外存)上的数据保存到快存(较快的存储)上,简单讲就是,如果某些资源或者数据会被频繁的使用,而这些资源或数据存储在系统外 部,比如数据库、硬盘文件等,那么每次操作这些数据的时候都从数据库或者硬盘上去 获取,速度会很慢,会造成性能问题(系统停工待料)。于是我们把这些数据冗余一份 到快存里面,每次操作的时候,先到快存里面找,看有没有这些数据,如果有,那么就 直接使用,如果没有那么就获取它,并复制一份到快存中,下一次访问的时候就可以直 接从快存中获取。从而节省大量的时间,可以看出,缓存是一种典型的空间换时间的方案。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RZl922ZE-1649852593378)(C:\Users\王正强\AppData\Roaming\Typora\typora-user-images\image-20220413195818868.png)]

生活中这样的例子处可见,如:

举例 1 --CPU–L1/L2–内存–磁盘

CPU 需要数据时先从 L1/L2 中读如果没有到内存中找,如果还没有会到磁盘上找。

举例 2 --Maven

还有如用过 Maven 的朋友都应该知道,我们找依赖的时候,先从本机仓库找,再从本地服务器仓库找,最后到远程仓库服务器找。

举例 3 --京东仓储

还有如京东的物流为什么那么快?他们在各个地都有分仓库,如果该仓库有货物那么送 货的速度是非常快的。

举例 4 --数据库中的索引

也是以空间换取时间,缓存也是以空间换取时间。

2.索引的重要的指标

2.1.缓存命中率

含义:用于证明缓存是否运行良好以及缓存设置是否合理

即【从缓存中读取数据的次数】与【总读取次数】的比率,命中率越高越好:

命中率 = 从缓存中读取次数 / (总读取次数[从缓存中读取次数 + 从慢速设备上读取 的次数])

Miss 率 = 没有从缓存中读取的次数 / (总读取次数[从缓存中读取次数 + 从慢速设备 上读取的次数])

这是一个非常重要的监控,如果做缓存一定要健康这个指标来看缓存是否工作良好。

2.2.移除策略

含义:不同的移除策略实际上看的是不同的指标

即如果缓存满了,从缓存中移除数据的策略;常见的有 LFU、LRU、FIFO:

FIFO(First In First Out):先进先出算法,即先放入缓存的先被移除;

LRU(Least Recently Used):最久未使用算法,使用时间距离现在最久的那个被移除;

LFU(Least Frequently Used):最近最少使用算法,一定时间段内使用次数(频率) 最少的那个被移除。

TTL(Time To Live ):空闲期,即一个数据多久没被访问将从缓存中移除的时间

实际设计缓存时以上重要指标都应该考虑进去,当然根据实际需求可能有的指标并不会采用进设计

3.缓存在 java 中的使用流程

3.1.缓存一般使用逻辑流程

在 Java 中,我们一般对调用方法进行缓存控制,比如我调用"findUserById(Long id)",那么我应该在调用这个方法之前先从缓存中查找有没有,如果没有再掉该方法如从数据库加载用户,然后添加到缓存中,下次调用时将会从缓存中获取到数据。Java 中广泛使用的分布式缓存 Redis

流程图如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EopWJ7s1-1649852593379)(C:\Users\王正强\AppData\Roaming\Typora\typora-user-images\image-20220413200045520.png)]

3.2.缓存流程逻辑代码实现

@Override
public Provinces detail(String provinceid) {
    Provinces provinces = null;

    //通过redis获取缓存数据
    provinces = (Provinces)redisTemplate.opsForValue().get(provinceid);
    if (null != provinces){
    //缓存中数据不为空,拿到数据直接返回
        return provinces;
    }
    //缓存数据为空,重新数据库中查询
    provinces = super.detail(provinceid);
    if (null != provinces){
        //查询数据不为空,将数据放入缓存,设置过期时间
        redisTemplate.opsForValue().set(provinceid,provinces);//set缓存
        redisTemplate.expire(provinceid,20000, TimeUnit.MILLISECONDS);//设置过期
    }

    return provinces;
}
### 回答1: Spark是一个开源的分布式计算框架,可以用于大规模数据处理。Spark的核心是Spark Core,它提供了分布式任务调度、内存计算和数据管理等功能。Spark支持多种编程语言,包括Java、Scala和Python等。Spark的离线计算能力非常强大,可以处理大规模的数据集,支持复杂的数据处理和分析任务。初学者可以通过学习Spark的基本概念和API,逐步掌握Spark的使用方法。 ### 回答2: Spark是一种开源的、面向大数据处理的计算引擎,可以在分布式集群上进行高效的离线计算和实时流处理。Spark的主要特点是速度快、易于使用、灵活性高,并且支持多种编程语言和多种数据源。 Spark的分布式计算是基于RDD(Resilient Distributed Dataset)的计算模型实现的。RDD是一种抽象的数据集合,像一个分布式的、可容错的内存数据结构,提供了数据的高度并行性和容错性。Spark的计算模型是基于RDD进行的,可以将数据集和计算操作分布式存储和处理,从而实现高性能的计算。 Spark的核心组件是Spark Core,它提供了RDD的编程接口和执行引擎。Spark Core是整个Spark体系最基础的模块,包括了RDD的构建、转换和动作等一系列基本操作,同时也提供了类似于MapReduce的分布式计算框架。 在离线计算,Spark Core可以支持各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。离线计算是指对离线数据进行批量处理,通常是通过Spark Core提供的Transformations和Actions函数处理RDD,完成一些统计、聚合、筛选等操作,最终输出结果数据。 初识Spark是从安装Spark开始入手,需要准备好Java或Scala的开发环境,并下载安装Spark的相关包。安装完成后,可以通过Spark Shell或者Spark的代码进行操作,从而熟悉Spark的RDD编程模型和离线计算的常用函数,最终可以完成对数据的处理和分析。 总之,初识Spark需要从Spark的分布式计算模型开始入手,了解Spark的基础组件Spark Core和RDD,掌握离线计算的基本函数和操作方法,从而熟悉Spark的使用和应用。 ### 回答3: Spark是由加州大学伯克利分校AMPLab所开发的一个分布式计算框架。Spark被设计成一种通用的、高性能的计算引擎,能够用于大规模数据处理,包括离线处理和实时流处理。Spark具有高容错性和支持多个数据源。Spark的一些主要组件包括Spark SQL、Spark Streaming、MLlib、GraphX等。 Spark在离线计算的主要作用是加速批处理任务的处理速度。Spark的主要组件包括Spark Core和Spark SQL。其,Spark Core是Spark的基础组件,是一个任务调度和分发引擎,提供了任务调度、内存管理、错误恢复等功能。Spark SQL是Spark提供的一个基于SQL的查询接口,可以与Spark Core进行集成,方便数据分析师使用。 初识Spark,需要掌握Spark的编程语言和运行环境。Spark支持多种编程语言,包括Scala、Java、Python和R。对于初学者来说,建议使用Scala作为开发语言,因为Spark是Scala语言编写的,同时Scala对Spark的支持也最全面。此外,还需要掌握Spark的运行环境,包括Spark集群的搭建、数据导入和输出、任务调度等内容。 在Spark的学习过程,需要掌握的关键技术包括数据类型、RDD编程模型、操作和算子、持久化和容错、调度器和任务划分等。需要注意的是,Spark的编程模型和Hadoop相似,但是Spark提供了更高级别的API和更便捷的操作方式,能够提高任务处理的效率。 总之,初识Spark需要从它的基础组件和编程语言入手,从实际案例发现它在离线计算的应用场景的优点,同时也需要掌握Spark在处理大规模数据时的关键技术,从而能够深入理解Spark的运行机制,提高离线数据分析处理的效率。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王老狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值