自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Redis缓存问题

缓存穿透缓存穿透是指缓存服务器中没有缓存数据,数据库中也没有符合条件的数据,导致业务系统每次都绕过缓存服务器查询下游的数据库,缓存服务器完全失去了其应用的作用。解决办法缓存空值可以为这些key对应的值设置为null并放到缓存中,这样再出现查询这个key 的请求的时候,直接返回null即可。(需要设置失效时间)BloomFilter 过滤器很多时候,缓存穿透是因为有很多恶意流量的请求,这些请求可能随机生成很多Key来请求查询,这些肯定在缓存和数据库中都没有,那就很容易导致缓存穿透。在缓存穿透防

2021-01-14 09:31:02 240 2

原创 Flink求topKey问题

pojoResult.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(1))) .process(new WindowAllResultProcess)class WindowAllResultProcess extends ProcessAllWindowFunction[pojo, Object,TimeWindow] { override def process(context: Context, elements:

2020-12-21 11:07:33 253

原创 MySQL5.7安装

// 安装MysqlYUM库wget https://repo.mysql.com//mysql80-community-release-el7-1.noarch.rpmrpm -ivh mysql80-community-release-el7-1.noarch.rpm// 选择版本vim /etc/yum.repos.d/mysql-community.repo[mysql57-community]name=MySQL 5.7 Community Serverbaseurl=http:

2020-11-06 11:13:52 149

原创 数据库与数据仓库的区别

数据仓库的建立主要是传统的数据库不能很好的支持长周期的分析决策使用面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、

2020-08-25 09:01:01 1062

原创 SparkStreaming 反压机制

SparkStreaming 反压机制当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval,即 BatchDuration)时,说明处理数据的速度小于数据摄入的速度,持续时间过长或源头数据暴增,容易造成数据在内存中堆积,最终导致Executor OOM或任务奔溃。Spark 1.5以前版本,基于Receiver的数据源,可以通过设置spark.streaming.receiver.maxRate来控制最大输入速率;若是基于Direct的数据源(如Kafka

2020-05-15 16:37:01 226

原创 Spark优化点

Spark为什么要使用累加器与广播变量

2020-05-13 15:31:38 183

原创 Spark中RDD分区以及节点

Spark中RDD分区对于二元rdd使用时,例如在使用join()时 我们对数据集是如何分区的却一无所知。默认情况下,连接操作会将两个数据集中的所有键的哈希值都求出来,将该哈希值相同的记录通过网络传到同一台机器 上,然后在那台机器上对所有键相同的记录进行连接操作,会非常消耗性能,如果一个数据集设定分区,那么在join时Spark就知道如何分区第二个数据集就会默认按照第一个进行数据分发,降低了网络...

2020-04-17 10:32:33 612

原创 SparkRDD

RDD叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD属性一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。一个计算每个分...

2020-03-26 15:16:01 146

原创 数据仓库建模(维度建模)-事实表设计

事实表概述事实表是数据仓库维度建模的核心,事实表是描述已经发生的业务过程,仅仅围绕业务过程设计,通过粒度和事实(度量)来描述。其中事实又可以分为三种可加性事实 可以按照任意维度进行统计 如金额半可加性事实 可以按照指定维度进行统计 如库存 按照时间统计没有意义不可加性事实 不可以按照任意维度统计 如比例相关事实表设计原则尽可能包含所有与业务过程相关的...

2020-01-19 17:51:50 1870

原创 数据仓库建模(维度建模)-维表设计

数据仓库与数据库的区别数据库:用于日常的事务处理,存储数据量相对较小,对于存储和查询都有相应的优化,但是对于历史数据量很大的情况下就不适用了。数据仓库:OLAP 用于大数据量的数据分析处理,优化了查询对于写操作并没太大的优化,因此在大数量方面的查询,支持复杂的查询分析,侧重于决策支持。数据仓库建模方式通常使用维度建模法,建立相应的事实表与维度表。例如星型模型,雪花模型和星座模型。星型模型...

2020-01-19 10:32:26 1835

原创 Kafka数据一致性可靠性等相关问题

KafkaKafka是一个分布式消息发布订阅系统,Kafka系统快速、可扩展并且可持久化。它的分区特性,可复制和可容错都是其不错的特性。Kafka与传统消息系统对比有一下不同分布式系统,易于向外拓展同时为发布和订阅提供高吞吐量支持多订阅者,当失败时能够自动平衡消费者将消息持久化到磁盘TopicTopic信息被存储在不同分区中,其中每一个分区内部的消息都是有序的且同时只能够被一...

2020-01-16 15:43:09 490

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除