爱过java
码龄3年
关注
提问 私信
  • 博客:40,963
    40,963
    总访问量
  • 34
    原创
  • 2,089,781
    排名
  • 2
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2021-08-29
博客简介:

m0_61332144的博客

查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得7次评论
  • 获得68次收藏
  • 代码片获得876次分享
创作历程
  • 5篇
    2023年
  • 30篇
    2022年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Docker拉取加速与数据存储路径更改

【代码】Docker拉取加速。
转载
发布博客 2023.08.02 ·
253 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Doris扩容缩容

Doris集群FE分为三个角色:Leader、Follower、Observer,默认只有一个Leader和多个Follower和Observer,当Leader宕机后,Followr会参与选举,选举成功后会成为新的Leader,Observer不参与选举,只同步Leader的数据。命令下发后,该BE节点的数据会向其它BE节点迁移,迁移完成后,Doris会删除该BE节点。取消后,当前BE节点会维持当前数据量,后续Doris会做负载均衡。
原创
发布博客 2023.07.22 ·
622 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark提交参数配置

三、cat /proc/cpuinfo| grep "processor"| wc -l 查看有多少核,占用50%~60%。二、free -h 查看每台服务器可用内存,占用50~60%--executor-memory (二)--executor-cores (三)一、有几台机器分配几个executor。--num-executors (一)
原创
发布博客 2023.06.24 ·
203 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Git操作远程仓库

【代码】Git操作远程仓库。
原创
发布博客 2023.05.25 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka配置SSL安全认

Kafka配置SSL安全认证
原创
发布博客 2023.02.28 ·
3131 阅读 ·
1 点赞 ·
3 评论 ·
9 收藏

Hive输出到CSV

Hive输出到CSV
原创
发布博客 2022.12.01 ·
693 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink——反压

Flink网络传输的数据流向如下图所示。Sender在发送数据时,首先写入TaskManager内部的网络缓存,利用Netty进行传输——将待发送的数据存入Netty的ChannelOutboundBuffer,再经由Socket的发送缓存发送出去。Receiver在接收数据时是反过来的,同样要经过3层缓存,即Socket接收缓存→Netty ChannelInboundBuffer→TaskManager网络缓存。要实现流量控制,就是在上面的流程上做文章。反压(back pressure)就是流式系统中关
原创
发布博客 2022.06.06 ·
603 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink架构

一、Flink集群架构1.1 Flink架构模型主要包含四个不同的组件:作业管理器(JobManager)资源管理器(ResourceManager)任务管理器(TaskManager)分发器(Application)Flink首先是由Scala和Java实现的,所有的组件都会运行在jvm上,当flink集群启动的时候,首先会启动一个JobManager和一个或多个TaskManager。由client提交任务给JobManager,JobManager再调度任务到一个或多个TaskManager上,然后T
原创
发布博客 2022.06.03 ·
2048 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Flink-数据流编程

数据流是一个可能无限的事件序列。一.数据流图数据流程序描述了数据如何在算子之间流动,节点表示算子, 边表示数据之间的依赖性。算子是数据流图中的功能单元,一个算子用来接收输入的数据,并将它们加工计算生成数据输出用于进一步处理。一个数据流图至少包含一个数据源和一个数据接收器。二、数据并行与任务并行第一,我们可以对输入的数据进行分区,并在数据子集上并行执行具有相同的算子的任务执行,这种类型的并行性就叫做数据并行性。第二,我们可以将不同算子在相同或不同的数据上执行。这种并行性称为任务并行
原创
发布博客 2022.05.26 ·
772 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kylin

一、数仓回顾1.1 核心概念数据仓库,OLAP和OLTP,维度和度量,事实表和维度表。星形模型和雪花模型。1.2 数据仓库这是商业智能的核心部分,主要是将不同数据源的数据整合到一起,通过多维分析为企业提供决策支持报表生成等。存入数据仓库的资料必定包含时间属性。数据仓库和数据库主要区别:一般来说,在传统 BI 领域里,数据仓库的数据同样是存储在 MySQL 这样的数据库中。大数据领域最常用的数据仓库就是 Hive ,我们要学习的 Kylin 也是以 Hive 作为默认的数据源的。
原创
发布博客 2022.05.20 ·
3063 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

Spark SQL

一、DataFrame与DataSet1.1 DataFrame可以简单的理解DataFrame为RDD+schema元信息在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似传统数据库的二维表格 DataFrame带有schema元信息,DataFrame所表示的数据集每一列都有名称和类型,DataFrame可以从很多数据源构建对象,如已存在的RDD、结构化文件、外部数据库、Hive表。RDD可以把内部元素当成java对象,DataFrame内部是一个个R
原创
发布博客 2022.05.20 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SparkStreaming

Spark Streaming 1. SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API(RDD)的扩展,支持可扩展、高吞吐量、容错的 准实时数据流处理 实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,在接受数据同时可以 使用高级功能的复杂算子来处理流数据。 最终处理后的数据可以存放在文件系统,数据库等,方便实时展现。 2. SparkStreaming与Storm的区别
原创
发布博客 2022.05.17 ·
662 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark

一、Spark简介1.1 Spark简介Apache Spark是专门为大数据处理而设计的通用的计算引擎。spark拥有MapReduce所具有的优点,但不同于Map Reduce的是Job中间输出结果可以缓存再内存中,从而不再需要读写HDFS,减少磁盘数据交互,因此Spark能更好的适应机器学习和数据挖掘等需要迭代的算法。Spark提供了Sparkcore RDD 、 Spark SQL 、 Spark Streaming 、 Spark MLlib 、 Spark GraphX等技术组件,可
原创
发布博客 2022.05.16 ·
408 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Scala

一、Scala简介scala 是一门以 jvm 为运行环境的静态类型编程语言,具备面向对象及函数式编程的特性。特性:1.java和Scala可以混编2.类型推测(自动推测类型)3.并发和分布式(Actor)4.特质,特征(类似 java 中 interfaces 和 abstract 结合) 5.模式匹配(类似 java 中的 switch...case ) 6.高阶函数Scala应用场景kafka:分布式消息队列,内部代码经常用来处理并发的问题,用scala可以大大
原创
发布博客 2022.05.11 ·
823 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ClickHouse

一、简介1.1 ClickHouse是一个用于联机分析的列式数据库管理系统。1.2 特点:开源的列式数据库管理系统,支持线性扩展,简单方便,高可靠性1.3 优点真正的面向列的DBMS(ClickHouse是一个DBMS,而不是一个单一的数据库。它允许在运行时创建表和数据库、加载数据和运行查询,而无需重新配置和重新启动服务器) 数据压缩(一些面向列的DBMS(INFINIDB CE 和 MonetDB)不使用数据压缩。但是,数据压缩确实是提高了性能)磁盘存储的数据(许多面向列的DB
原创
发布博客 2022.05.05 ·
1508 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Storm

一、Storm简介Storm时Twitter开源的分布式实时大数据处理框架,被业界称为实时版的hadoop。1.1 storm的优点Storm使用了netty来传送消息,消除了中间消息排队的过程,在消息的背后,storm使用了一种序列化反序列化的原语类型的自动化且高效的机制。storm的一个最有趣的地方时它注重容错和管理,Storm 实现了有保障的消息处理,所以每个元组Turple都会通过该拓扑topology结构进行全面管理。如果一个元组还未处理会自动从spout处重发,storm还实
原创
发布博客 2022.05.04 ·
1041 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Kafka

一、异步通信原理1.1 观察者模式观察者模式又叫,发布订阅模式定义对象间有一种一对多的关系,使得当一个对象改变状态,则与它关联的对象都会得到通知并自动更新一个对象(目标对象)的状态发生改变,所有依赖的对象(观察者对象)都将得到通知现实生活中的应用场景京东到货通知1.2 生产者消费者模式传统模式:生产者直接将消息传递给指定的消费者耦合性特别高,当生产者或消费者发生变化的时候,都需要重写业务逻辑生产者消费者模式通过一个容器来解决生产者消费者的强耦合问题,生产者
原创
发布博客 2022.04.29 ·
623 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

ElasticSearch7.4.2

一、索引通俗的来讲正向索引就是通过key去找value,反向索引就是通过value去找key1.1 正向索引以文档ID为索引,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。这种组织方法在建立索引的时候结构比较简单,建立比较方便易于维护若是有新的文档接入,则直接新建一个索引块,挂接在原索引文件的后面若是有文档删除,则直接找到该文档号对应的文档对应的索引信息,将其直接删除。缺点:索引检索效率太低,只能在一般简单的场景下才可以使用
原创
发布博客 2022.04.26 ·
1244 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis5.0.3

一、缓存Cache1.1 缓存的概念缓存是存储计算机原始数据的复制集,以便于访问。1.2 缓存击穿概念:对于一些设置了过期时间的的key,如果这些key可能会在某些时间点被超高并发地访问,是一种非常“热点”的数据原因:缓存在某个时间点过期的时候,恰好在这个时间点对这个Key有大量的并发请求过来,该key没有命中,大量请求穿透到数据库服务器解决方案:对于热点数据,慎重考虑过期时间,确保热点期间key不会过期,甚至有些可以设置永不过期使用互斥锁(比如Java的多线程锁
原创
发布博客 2022.04.23 ·
969 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Azkaban

一、Azkaban介绍Azkaban实在Linkdln上创建的用于运行hadoop作业的批处理工作流作业调度程序。我们知道大数据的计算一般由多个任务单元组成(Hive、spark、shell)等,多个任务往往有着强依赖关系,上游任务执行完成下游任务才可以执行。而为了数据处理结果的准确性,就必须要求这些任务按照上下游依赖关系有序、高效的运行。一个较为基础的处理方式是预估出每个任务处理所需时间,根据先后顺序计算出任务的起止时间,通过定时跑任务的方式,让整个系统保持稳定的运行。Azkaban用于在一个
原创
发布博客 2022.04.20 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多