
大数据
文章平均质量分 93
CodeDevMaster
积跬步,至千里。
展开
-
Apache Dolphinscheduler:一个开源的分布式工作流调度系统
Apache DolphinScheduler 是一个开源的分布式工作流调度系统,主要用于数据处理和任务调度。它支持多种数据源和任务类型,能够帮助用户在大数据环境中进行复杂的工作流管理。原创 2024-09-20 10:38:55 · 1819 阅读 · 0 评论 -
数据可视化与分析平台之Superset
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。原创 2024-02-20 15:58:01 · 2232 阅读 · 0 评论 -
CDH6.3.2之各个组件服务的安装
CDH是基于Apache Hadoop生态系统构建的,包括Hadoop核心组件(HDFS、YARN和MapReduce)以及其他相关开源技术组件(Hive、HBase、Spark、Impala等)。原创 2023-12-12 22:49:26 · 902 阅读 · 0 评论 -
安装部署CDH6.3.2
CDH是一个基于Apache Hadoop的开源软件发行版,包含了一系列与Hadoop生态系统相关的开源软件。它是由Cloudera公司开发和维护,为企业和组织提供了易于使用和管理的大数据处理解决方案。原创 2023-12-12 15:59:08 · 565 阅读 · 0 评论 -
配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。原创 2023-10-10 23:08:07 · 5316 阅读 · 1 评论 -
大数据开发中常用组件服务的集群管理脚本整理集合
在大数据开发中,需要对各个组件服务集群进行管理,为了效率和可靠性,可以编写shell脚本来统一管理和维护集群,确保系统的稳定性和可靠性。原创 2023-09-15 13:46:51 · 665 阅读 · 0 评论 -
配置开启Hive远程连接
使用IDEA工具远程连接Hive,首先需要配置开启Hive远程连接支持,主要有2种方式来配置开启Hive远程连接。原创 2023-08-25 10:24:54 · 2298 阅读 · 0 评论 -
从源代码编译构建Apach Spark3.2.4
使用官方预编译版本的Spark已经足够满足日常需求。当在特定的场景和需求下,重新编译Spark提供了更大的灵活性和控制权,适用于需要特定功能、定制化配置或对Spark进行扩展的场景。原创 2023-08-14 10:20:35 · 516 阅读 · 0 评论 -
从源代码编译构建Hive3.1.3
在某些特定情况下,可能需要从源代码编译Hive,而不是使用预编译的安装包。本文记录从源代码编译构建Hive3.1.3的整个过程。原创 2023-08-11 20:52:26 · 2720 阅读 · 0 评论 -
任务调度器之Azkaban的使用
Azkaban是一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。在大数据领域中,用于运行Hadoop作业。原创 2022-06-29 09:00:00 · 1372 阅读 · 0 评论 -
Docker安装Hive与Windows安装Hive
在Linux环境下,使用Docker安装Hive,以及在Windows环境下安装Hive。原创 2022-06-27 09:00:00 · 2228 阅读 · 0 评论 -
Hadoop之计算框架Tez的基本使用
Tez是支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG 作业的性能。原创 2022-06-21 17:20:33 · 2624 阅读 · 1 评论 -
数据采集工具之Flume的常用采集方式使用示例
Apache Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。原创 2022-06-07 15:46:46 · 3985 阅读 · 0 评论 -
Apache Phoenix的安装以及结合HBase的Java API使用
Phoenix是一个基于HBase的开源SQL引擎,可以使用标准的JDBC API代替HBase客户端API操作。原创 2022-06-04 20:22:40 · 1241 阅读 · 1 评论 -
Java操作Apache HBase API以及HBase和MapReduce整合
Java操作Apache HBase API以及Java操作HBase和MapReduce整合原创 2022-05-17 11:04:53 · 418 阅读 · 0 评论 -
Hadoop之Hive基本操作
整理记录Hive数据库、数据表、数据类型、内部表与外部表、数据加载与导出、分区表、分桶表、Hive查询、Hive函数等基本操作。原创 2022-05-16 09:30:00 · 1531 阅读 · 0 评论 -
大数据同步工具之DataX
DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2022-05-15 09:30:00 · 1939 阅读 · 0 评论 -
分布式数据同步工具之DataX Web的基本使用
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。原创 2022-05-14 21:43:50 · 12911 阅读 · 0 评论 -
Linux服务器搭建单机版Hive与搭建Hive集群
详细记录使用Linux服务器搭建单机版Hive与搭建Hive集群整个过程,避免踩坑.........原创 2022-05-14 12:38:09 · 2318 阅读 · 0 评论 -
Windows环境下安装HBase2.2.5与Linux环境下搭建HBase2..4.5高可用集群
Windows环境下安装HBase2.2.5与Linux环境下搭建HBase2..4.5高可用集群原创 2022-04-29 15:20:48 · 3644 阅读 · 0 评论 -
Apache Druid单机环境搭建及基本使用
Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景。原创 2021-12-25 09:45:00 · 2317 阅读 · 0 评论