大数据从入门到精通
文章平均质量分 82
大数据从入门到精通实战
大数据AI
专注于IT技术分享
展开
-
大数据任务调度平台选型建议
怎么样让大量的 ETL 任务准确的完成调度而不出现问题,甚至在任务调度执行中出现错误的情况下,任务能够完成自我恢复甚至执行错误告警与完整的日志查询。Airflow支持各种数据处理库和系统,如Spark、Hive、Pig等,并具有强大的调度能力和丰富的插件生态。Luigi是由 Spotify 开发的Python库,用于构建复杂的批处理任务管道。Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面,非常推荐除Python团队以外的人员使用。原创 2024-03-18 11:03:04 · 1130 阅读 · 0 评论 -
Flink K8s Operator 测试验证
Flink K8s Operator 测试验证。原创 2024-03-14 15:11:26 · 537 阅读 · 0 评论 -
Flink K8S Operator 离线安装
Flink K8s Operator 离线安装原创 2024-03-12 16:30:55 · 514 阅读 · 0 评论 -
数据集成平台选型建议
数据集成平台是一种用于管理和协调数据流动的软件工具或服务。它的主要目标是将来自多个不同数据源的数据整合到一个统一的、易于访问和分析的数据存储库中。原创 2024-03-12 16:26:58 · 3436 阅读 · 1 评论 -
开源大数据管理平台选型
开源大数据管理平台选型原创 2024-02-20 10:56:32 · 733 阅读 · 3 评论 -
数据仓库选型建议
数据仓库选型建议原创 2024-02-20 10:04:08 · 2365 阅读 · 0 评论 -
基于 Reactive Mode 的 Flink 自动扩容
基于 Reactive Mode 的 Flink 自动扩容原创 2024-02-19 11:10:39 · 1182 阅读 · 0 评论 -
Flink Upsert Kafka SQL Connector 介绍
Flink Upsert Kafka SQL Connector 介绍原创 2024-02-19 10:51:37 · 2128 阅读 · 5 评论 -
Apache Zeppelin 整合 Spark 和 Hudi
Apache Zeppelin 整合 Spark 和 Hudi原创 2024-02-06 11:06:13 · 1321 阅读 · 0 评论 -
Spark 开启动态资源分配
Spark 开启动态资源分配原创 2024-02-04 09:16:28 · 551 阅读 · 0 评论 -
Spark 依赖包加载方式
Spark 依赖包加载方式原创 2024-02-04 09:15:10 · 916 阅读 · 0 评论 -
CDH6.3.2 多 Spark 版本共存
cdh6.3.2 多 spark 版本共存原创 2024-02-04 09:12:16 · 696 阅读 · 0 评论 -
Hive管理UDF详解
Hive 管理UDF函数的方式有:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助jar目录原创 2024-01-19 14:47:02 · 208 阅读 · 0 评论 -
Hive添加第三方Jar包方式总结
Hive添加第三方jar包方式:1. Hive Shell add jar2. 辅助jar目录3. 可重载辅助Jar目录4. {HIVE_HOME}/auxlib5. {HIVE_HOME}/lib原创 2024-01-19 14:43:56 · 495 阅读 · 0 评论 -
Hive架构设计
Hive架构设计原创 2024-01-16 17:58:27 · 146 阅读 · 0 评论 -
Hive调优一文打尽
Hive调优一文打尽原创 2024-01-16 17:56:56 · 164 阅读 · 0 评论 -
Yarn弹性队列测试
Yarn 调度器中的 Capacity Scheduler 和 Fair Scheduler 都支持弹性扩容, 现对 Fari Scheduler 进行弹性扩容测试。Yarn 动态资源池配置配置如下:一、不限制最大资源数1、yarn配置2、测试$ sudo -u hdfs hadoop jar hadoop-mapreduce-examples.jar pi -Dmapreduce.job.queuename=test 1000 100WARNING: Use "yarn jar" to原创 2020-11-02 20:07:31 · 512 阅读 · 0 评论 -
Yarn 调度器
YARN是双层调度范式,YARN Scheduler是YARN的主调度器,YARN Scheduler有多种实现,每一种对应了不同的调度策略,如常见的FIFO Scheduler,Fair Scheduler、Capacity Scheduler等,它们都是可插拔的。资源调度器是YARN中最核心的组件之一,并且是可插拔的,用户可以根据它的一整套接口,编写自己的Scheduler,实现自己所需的调度逻辑。这里的调度逻辑指的是第一次调度逻辑,而不关注第二层调度策略,它由计算框架自己控制。一、YARN的资源管理原创 2020-10-30 19:12:17 · 585 阅读 · 0 评论 -
Kafka Avro序列化之三:使用Schema Register实现
Kafka 使用Schema Register实现Avro序列化原创 2023-12-15 10:40:25 · 757 阅读 · 0 评论 -
Kafka Avro序列化之二:使用Twitter的Bijection 类库实现
Kafka使用Twitter的Bijection类库实现Avro序列化原创 2023-12-15 10:39:02 · 832 阅读 · 0 评论 -
Kafka Avro序列化之一:使用自定义序列化
Kafka 使用自定义序列化Avro格式数据原创 2023-12-15 10:37:31 · 947 阅读 · 0 评论 -
Kafka Schema介绍
Apache Avro(以下简称 Avro,读音:阿夫罗)是一个数据序列化系统,是一种与编程语言无关的序列化格式,是提供一种共享数据文件的方式。Avro是Hadoop中的一个子项目,Avro是一个基于二进制数据传输高性能的中间件。Avro可以做到将数据进行序列化,适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后节约数据存储空间和网络传输带宽。序列化就是将对象转换成二进制流,相应的反序列化就是将二进制流再转换成对应的对象。原创 2023-12-05 17:05:50 · 1171 阅读 · 0 评论 -
使用jmx_exporter监控Kafka
JMX-Exporter 是 Prometheus 社区提供的一个工具,用来把 JMX 暴露的监控指标数据转换为 Prometheus 可识别的格式。JMX-Exporter 通过 HTTP 服务的方式暴露监控指标数据,Prometheus 通过 HTTP 协议来拉取监控指标数据。启动独立进程。原创 2023-11-21 20:56:32 · 983 阅读 · 0 评论 -
使用kafka_exporter监控Kafka
prometheus 监控 kafka 常见的有两种开源方案,一种是传统的部署 exporter 的方式,一种是通过 jmx 配置监控,本文将采用kafka_exporter方式实现,相比JMX,其优势在于不需要消耗 JVM资源,指标收集时间从分钟级别降到秒级别,便于大规模集群的监控。原创 2023-11-21 20:54:31 · 2103 阅读 · 0 评论 -
使用JMX监控ZooKeeper和Kafka
Java Management Extensions(JMX)技术是 Java SE 平台的标准功能,提供了一种简单的、标准的监控和管理资源的方式,对于如何定义一个资源给出了明确的结构和设计模式,主要用于监控和管理 Java 应用程序运行状态、设备和资源信息、Java 虚拟机运行情况等信息。并且如下图所示,有关应用程序性能和资源使用情况的详细信息可以从 JMX 指标中导出。如果有任何问题,我们可以借助收集的指标进行诊断,并对系统进行微调以获得最佳性能。原创 2023-11-21 20:53:41 · 991 阅读 · 0 评论 -
CMAK Kafka可视化管理工具
为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 CMAK(原名Kafka Manager)。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。kafka-manager 项目地址:https://github.com/yahoo/kafka-manager。原创 2023-11-21 20:52:46 · 1070 阅读 · 1 评论 -
UI for Apache Kafka
UI for Apache Kafka原创 2023-11-21 20:51:48 · 1579 阅读 · 0 评论 -
Cloudera Manager 安装 Kafka 并简单使用
Cloudera Manager 安装 Kafka 并简单使用原创 2024-01-31 08:49:22 · 1094 阅读 · 1 评论 -
Kafka集群安装
Kafka集群安装原创 2016-10-23 11:27:48 · 299 阅读 · 0 评论 -
使用JMX监控ZooKeeper和Kafka
使用JMX监控ZooKeeper和Kafka原创 2023-11-21 20:49:04 · 1137 阅读 · 1 评论 -
ZooKeeper调优
ZooKeeper生产调优实战原创 2023-11-06 10:01:56 · 694 阅读 · 0 评论 -
ZooKeeper监控
从3.6.0之后,Zookeeper自带的Monitor结合Prometheus、Grafana可绘制出丰富的监控图表项。原创 2023-11-06 10:08:50 · 374 阅读 · 0 评论 -
ZooKeeper集群安装
zookeeper 分布式安装原创 2016-10-23 11:30:24 · 261 阅读 · 2 评论 -
HDFS block 块大小设置
HDFS block 块大小设置原创 2024-01-30 15:12:55 · 93 阅读 · 0 评论 -
Java API 操作 HDFS
Java API 操作 HDFS原创 2024-01-30 15:07:36 · 200 阅读 · 0 评论 -
Intelj IDEA 配置Hadoop 远程调试环境
Intelj IDEA 配置 Hadoop 远程调试环境原创 2024-01-30 11:11:27 · 304 阅读 · 0 评论 -
HDFS 使用 RBF 注意事项
hdfs rbf 使用注意事项原创 2024-01-29 10:59:33 · 923 阅读 · 2 评论 -
HDFS RBF 联邦企业级生产实战
HDFS RBF 联邦企业级生产实战原创 2024-01-29 10:56:32 · 1462 阅读 · 0 评论 -
HDFS Federation前世今生
HDFS Federation 前世今生原创 2024-01-29 10:08:38 · 1151 阅读 · 0 评论 -
Ambari 使用 Knox 进行 LDAP 身份认证
Ambari 使用 Knox 进行 LDAP 身份认证原创 2024-01-26 10:57:14 · 572 阅读 · 0 评论