- 博客(7)
- 收藏
- 关注
原创 kafka:查看topic与application列表
yarn application -kill 查看yarn下的application列表。查看kafka下的topic列表。查看指定topic的详细信息。删除application。
2023-12-06 16:37:37
102
1
原创 Flink
WaterMark包含一个时间戳,Flink使用WaterMark保证所有小于该时间戳的消息都已流入,Flink的数据源在确认所有小于该时间戳的消息都已流入,Flink的数据源在确认所有小于某个时间戳的消息都已输出到Flink流处理器后,会生成一个包含该时间戳的WaterMark,插入到消息流中输出到Flink流处理系统中;一旦一个watermark到达了operator,operator可以将内部事件时间提前到watermark的时间戳。(前移的太多就会导致整体任务延时较大)Flink(流式处理)
2023-12-01 20:36:45
53
1
原创 spark基础知识
广播大变量::Executor一开始并没有广播变量,而是task运行需要用到广 播变量,会找executor的blockManager要,bloackManager找Driver里面的 blockManagerMaster要。优化数据结构:对象、字符串、集合类型(HashMAP、LinkList)会占用大量内存,尽量使用原始类型(int、Long)代替字符串,或者数组代替集合类型,减少内存小占用,降低GC。(RDD存储共有12种,大致分为1、内存 2、磁盘 3、序列化 4、副本 5、本地内存)
2023-11-17 21:07:25
44
原创 Spark相关进阶知识点
Driver 中的 SparkContext 分配 Task 给 Executor 执行,Executor 运行 Task 并向 Driver 汇报运行的状态、进度、以及最终的计算结果;AM的功能相当于一个 ExecutorLaucher (Executor启动器),负责向 RM申请 Container 资源 ,RM收到请求后便会与 NM通信,启动 Container。Executor进程启动后会向 Driver 反向注册,Executor 全部注册完成后 Driver 开始执行执行 Job 任务。
2023-11-12 21:34:46
65
原创 数据仓库架构
经历ODS的数据清洗加工、维度退化、数据探查得到的数据,会做一部分数据聚合操作,提高数据的可用性。对通用的核心维度进行轻度的聚合操作。DWS:数据服务层(宽表)
2023-10-24 20:20:52
23
原创 node节点没有datanode
4、应该是数据格式化太多次,导致数据冲突,将node中的data文件删除:rm -rf data/2、查看node日志:cat hadoop-root-datanode-node1.log。5、然后咋master中格式化:hdfs namenode -format。1、关闭hadoop:start-all.sh。3、查看错误信息:若出现如下信息。
2023-09-21 10:32:50
172
原创 Hadoop学习笔记1
多样化:是指数据的类型多样化 处理的数据通常包括:日志数据 ,JSON数据(半结构化数据),结构化数据(二维结构数据)通常来自于业务系统中。Hadoop是一个适合海量数据的分布式存储(HDFS)和分布式计算(MapReduce)的平台(分而治之)Yarn:资源调度平台,负责给计算框架分配计算资源(在hadoop1.x后产生)真实:只要是历史产生过的数据,那么就可以存放到大数据库中,用于做数据分析。高速 :数据产生的速度较快 ,其数据产生的速度,是单台机器无法承载的。价值:数据中可以挖掘的价值。
2023-09-20 14:15:31
34
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人