大数据
文章平均质量分 80
大数据相关技术,Flink,hadoop等
小魏的博客
给自己的歌
展开
-
总结:Flink任务执行
一直很好奇,Flink是如何运行我们的java类任务的,今天先记录下。原创 2024-07-04 20:39:10 · 366 阅读 · 0 评论 -
总结:Hive
交易ID:交易日期:客户IDproduct_id:产品IDamount:交易金额在处理TB级甚至更大规模数据时,Hive通过分布式存储和计算展示了其显著的优势。相较于传统的关系型数据库如MySQL,Hive能够更加高效地处理大规模数据查询,具有更高的扩展性和容错能力。原创 2024-06-28 09:57:52 · 521 阅读 · 0 评论 -
总结:DataX
本文主要介绍DataX的安装与使用。原创 2024-06-26 14:26:05 · 293 阅读 · 0 评论 -
总结:Hadoop高可用
SecondaryNameNode会定期从NameNode复制元数据,可以尝试使用SecondaryNameNode来替换宕机的NameNode。恢复NameNode备份:如果启动NameNode失败,可以尝试恢复之前备份的NameNode数据。Hadoop会定期生成NameNode的元数据备份,可以使用这些备份数据来恢复NameNode。同时也建议及时备份重要数据,以防止数据丢失。使用HA(高可用)模式:如果你的Hadoop集群配置了HA模式,可以通过切换到备用的NameNode来保证集群的持续运行。原创 2024-06-25 20:41:44 · 412 阅读 · 0 评论 -
总结:大数据服务
Hadoop大数据服务梳理原创 2022-08-10 09:58:52 · 2579 阅读 · 0 评论 -
总结:HBase
HBase梳理原创 2022-03-28 16:11:36 · 4068 阅读 · 0 评论 -
总结:HDFS
一、HDFS的架构原理一个HDFS集群,包含一个单独的NameNode和多个DataNode组成;NameNode作为Master服务,它负责管理文件系统的命名空间和处理客户端对文件的访问请求。NameNode保存了文件的元数据信息(文件名,Black数量,Black所在位置等)。NameNode同时会接受DataNode的心跳信息。DataNode作为Salve服务,在集群中存在多个;通常每个DataNode对应于一个物理节点。DataNode负责管理其节点上存储的Black块信息。同时需原创 2022-04-01 17:53:15 · 424 阅读 · 0 评论 -
总结:HBase的rowkey设计
参考:一篇文章带你快速搞懂HBase RowKey设计一、RowKey在查询中的作用HBase中RowKey可以唯一标识一行记录,在HBase中检索数据有以下三种方式:通过 get 方式,指定 RowKey 获取唯一一条记录 通过 scan 方式,设置 startRow 和 stopRow 参数进行范围匹配 全表扫描,即直接扫描整张表中所有行记录二、rowkey设计技巧1、越高频的查询字段排列越靠左下面根据一个例子分别介绍下根据RowKey进行查询的时候支持的情况。如果我们Ro原创 2022-04-01 17:49:29 · 4081 阅读 · 0 评论 -
总结:RocketMQ
一、架构RocketMQ 是阿里巴巴开源的一款分布式消息中间件。具有高性能低延时抗堆积可扩展等特点。RocketMQ的Producer、Consumer、Broker、NameServer均支持集群化部署。架构图如下:二、名词解释Broker消息队列的服务端,消息实际存储的地方。Master角色为Master的Broker,一个Master + 一个Slave 分为一组,Master和Slave数据一致并保持同步关系。同步方式分为同步(sync)和异步(async)两种。原创 2022-03-31 09:56:37 · 1535 阅读 · 0 评论 -
总结:Flink之Event Time , Processing Time 和 Ingestion Time
一、介绍Flink DataStream程序的第一部分通常设置基本时间特性。该设置定义了数据流源的行为方式(例如,它们是否将分配时间戳),以及像KeyedStream.timeWindow(Time.seconds(30))这样的窗口操作应该使用什么时间概念。Flink在流处理程序中支持不同的时间概念。ProcessingTime默认,无需指定是指执行相应操作的机器的系统时间。当流处理程序基于处理时间运行时,所有基于时间的操作(如时间窗口)将使用运行相应运算符的机器的系统时钟。 每原创 2022-03-31 09:41:40 · 1782 阅读 · 1 评论 -
总结:大数据
一、Hadoop生态 二、基础组件之HDFS1、不适合存储小文件,因为小文件太多会造成namenode节点的压力;2、一个文件是由至少一个block组成,每个block默认备份三份;我们公司集群部署默认三个block部署在不同的机架,这样有一个机架挂掉,数据仍然可读。3、目前集群总数据量超过100PB4、文件写入是append的方式,不能修改某一行5、适用场景一次写入多次读取 大文件6、访问方式Java Shell cmd mount:挂载..原创 2022-03-30 17:28:56 · 2082 阅读 · 0 评论 -
总结:Flink
Flink梳理原创 2022-02-10 18:27:37 · 336 阅读 · 0 评论