自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 kafka:查看topic与application列表

yarn application -kill 查看yarn下的application列表。查看kafka下的topic列表。查看指定topic的详细信息。删除application。

2023-12-06 16:37:37 102 1

原创 Flink

WaterMark包含一个时间戳,Flink使用WaterMark保证所有小于该时间戳的消息都已流入,Flink的数据源在确认所有小于该时间戳的消息都已流入,Flink的数据源在确认所有小于某个时间戳的消息都已输出到Flink流处理器后,会生成一个包含该时间戳的WaterMark,插入到消息流中输出到Flink流处理系统中;一旦一个watermark到达了operator,operator可以将内部事件时间提前到watermark的时间戳。(前移的太多就会导致整体任务延时较大)Flink(流式处理)

2023-12-01 20:36:45 53 1

原创 spark基础知识

广播大变量::Executor一开始并没有广播变量,而是task运行需要用到广 播变量,会找executor的blockManager要,bloackManager找Driver里面的 blockManagerMaster要。优化数据结构:对象、字符串、集合类型(HashMAP、LinkList)会占用大量内存,尽量使用原始类型(int、Long)代替字符串,或者数组代替集合类型,减少内存小占用,降低GC。(RDD存储共有12种,大致分为1、内存 2、磁盘 3、序列化 4、副本 5、本地内存)

2023-11-17 21:07:25 44

原创 Spark相关进阶知识点

Driver 中的 SparkContext 分配 Task 给 Executor 执行,Executor 运行 Task 并向 Driver 汇报运行的状态、进度、以及最终的计算结果;AM的功能相当于一个 ExecutorLaucher (Executor启动器),负责向 RM申请 Container 资源 ,RM收到请求后便会与 NM通信,启动 Container。Executor进程启动后会向 Driver 反向注册,Executor 全部注册完成后 Driver 开始执行执行 Job 任务。

2023-11-12 21:34:46 65

原创 数据仓库架构

经历ODS的数据清洗加工、维度退化、数据探查得到的数据,会做一部分数据聚合操作,提高数据的可用性。对通用的核心维度进行轻度的聚合操作。DWS:数据服务层(宽表)

2023-10-24 20:20:52 23

原创 node节点没有datanode

4、应该是数据格式化太多次,导致数据冲突,将node中的data文件删除:rm -rf data/2、查看node日志:cat hadoop-root-datanode-node1.log。5、然后咋master中格式化:hdfs namenode -format。1、关闭hadoop:start-all.sh。3、查看错误信息:若出现如下信息。

2023-09-21 10:32:50 172

原创 Hadoop学习笔记1

多样化:是指数据的类型多样化 处理的数据通常包括:日志数据 ,JSON数据(半结构化数据),结构化数据(二维结构数据)通常来自于业务系统中。Hadoop是一个适合海量数据的分布式存储(HDFS)和分布式计算(MapReduce)的平台(分而治之)Yarn:资源调度平台,负责给计算框架分配计算资源(在hadoop1.x后产生)真实:只要是历史产生过的数据,那么就可以存放到大数据库中,用于做数据分析。高速 :数据产生的速度较快 ,其数据产生的速度,是单台机器无法承载的。价值:数据中可以挖掘的价值。

2023-09-20 14:15:31 34 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除