大数据
文章平均质量分 95
大数据开发技术相关笔记
魅Lemon
hello, everybody
展开
-
大数据大厂面试题
inputFile通过split被切割为多个split文件,通过Record按行读取内容给map(自己写的处理逻辑的方法) ,数据被map处理完之后交给OutputCollect收集器,对其结果key进行分区(默认使用的hashPartitioner),然后写入buffer,原创 2024-04-16 16:59:33 · 520 阅读 · 0 评论 -
元数据管理Atlas
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。同时可以配合ranger对某个元数据进行权限管理元数据分类支持对元数据进行分类管理,例如个人信息,敏感信息等元数据检索可按照元数据类型、元数据分类进行检索,支持全文检索血缘依赖支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等例如表与表之间的血缘依赖。原创 2024-04-16 16:59:02 · 474 阅读 · 0 评论 -
数仓数据质量管理脚本
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。原创 2024-04-16 16:58:05 · 429 阅读 · 0 评论 -
权限管理Ranger详解
Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生RangerUsersync作为Ranger提供的一个管理模块,可以将Linux机器上的用户和组信息同步到RangerAdmin的数据库中进行管理Ranger Hive-plugin是Ranger对hive进行权限管理的插件。原创 2024-04-16 16:57:23 · 569 阅读 · 0 评论 -
安全认证Kerberos详解
Kerberos是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。原创 2024-04-16 16:55:47 · 340 阅读 · 0 评论 -
Flink SQL
# 创建数据库# 举例## 查询数据库# 查询当前数据库# 修改数据库# 删除数据库# RESTRICT:删除非空数据库会触发异常。默认启用# CASCADE:删除非空数据库也会删除所有相关的表和函数## 切换当前数据库系统函数尽管庞大,也不可能涵盖所有的功能;如果有系统函数不支持的需求,我们就需要用自定义函数(User Defined Functions,UDF)来实现了。Flink的Table API和SQL提供了多种自定义函数的接口,以抽象类的形式定义。原创 2024-04-16 16:52:38 · 841 阅读 · 0 评论 -
Flink1.17学习笔记
文章目录一、Flink概述与入门1、Flink概述1.1 Flink是什么1.2 Flink特点1.3 Flink vs SparkStreaming1.4 Flink的应用场景1.5 Flink分层API2、Flink快速上手2.1 环境准备2.2 WordCount之批处理2.3 流处理之读取文件2.4 流处理之读取socket文本流二、Flink安装与部署1、集群角色2、Flink集群搭建2.1 集群启动2.2 向集群提交作业3、部署模式3.1 会话模式(Session Mode)3.2 单作业模式(原创 2024-04-16 16:50:18 · 541 阅读 · 0 评论 -
实时数据同步之Maxwell和Canal
Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。实时读取MySQL 二进制日志 Binlog,并生成 JSON格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序注意:1.30.0版本后不在支持JDK8Canal 是用 Java 开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前。原创 2024-04-15 18:38:28 · 1461 阅读 · 0 评论 -
可视化报表Superset
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。原创 2024-04-15 18:37:56 · 612 阅读 · 0 评论 -
即席查询笔记
Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。OLAP(online analytical processing)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。从各方面观察信息,也就是从不同的维度分析数据,因此OLAP也成为多维分析。原创 2024-04-15 18:37:21 · 898 阅读 · 0 评论 -
大数据建模理论
通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是 Oracle、MySQL、SQL Server等关系数据库里的结构化数据,可能是文本、CSV等平面文件或Word、Excel文档中的数据,还可能是HTML、XML等自描述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的即席查询、 分析系统、数据集市、报表系统、数据挖掘系统等。原创 2024-04-15 18:34:55 · 860 阅读 · 0 评论 -
大数据几种任务调度工具
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用DolphinScheduler支持多种部署模式,包括单机模式(Standalone)、伪集群模式(Pseudo-Cluster)、集群模式(Cluster)等Airflow是一个以编程方式编写,安排和监视工作流的平台。使用Airflow将工作流编写任务的有向无环图(DAG)。原创 2024-04-15 18:33:55 · 1062 阅读 · 0 评论 -
Hive on spark源码编译与调优
一般生产环境NN和RM吃资源少的会单独配置,而工作节点会单独配置资源较多,例如Master节点配置为16核CPU、64G内存;Workder节点配置为32核CPU、128G内存,五台服务器如下所示hadoop100hadoop101hadoop102hadoop103hadoop104mastermasterworkerworkerworkerNameNodeNameNodeDataNodeDataNodeDataNodeZookeeperZookeeper。原创 2024-04-15 18:32:41 · 747 阅读 · 0 评论 -
Hive on spark编译
Hive引擎包括:默认MR、Tez、SparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。原创 2024-04-15 18:32:01 · 911 阅读 · 0 评论 -
HBase2.x学习笔记
文章目录一、HBase 简介1、HBase 定义1.1 概述1.2 HBase 与 Hadoop 的关系1.3 RDBMS 与 HBase 的对比1.4 HBase 特征简要2、HBase 数据模型2.1 HBase 逻辑结构2.2 HBase 物理存储结构2.3 HBase的表数据模型3、HBase 基本架构3.1 Master3.2 Region Server3.3 Zookeeper3.4 HDFS二、HBase 快速入门1、HBase 安装部署1.1 前置环境与下载1.2 HBase 的配置文件1.原创 2024-04-15 18:29:01 · 1136 阅读 · 0 评论 -
Zookeeper3.5.7源码分析
Paxos算法:一种基于消息传递且具有高度容错特性的一致性算法。Paxos算法解决的问题:就是如何快速正确的在一个分布式系统中对某个数据值达成一致,并且保证不论发生任何异常,都不会破坏整个系统的一致性。在一个Paxos系统中,首先将所有节点划分为Proposer(提议者),Acceptor(接受者),和Learner(学习者)。Prepare准备阶段Proposer向多个Acceptor发出Propose请求Promise(承诺)Acceptor针对收到的Propose请求进行Promise(承诺)原创 2024-01-25 14:04:42 · 1306 阅读 · 0 评论 -
Zookeeper3.5.7基础学习
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应**。Zookeeper=文件系统+通知机制**几种分布式锁详解Centos7安装zookeeper和Web UI。原创 2024-01-25 14:04:06 · 1079 阅读 · 0 评论 -
Spark3学习笔记
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在 FullStack 理想的指引下,Spark 中的 Spark SQL 、SparkStreaming 、MLLib 、GraphX 、R 五大子框架和库之间可以无缝地共享数据和操作, 这不仅打造了 Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势, 而且使得 Spark 正在加速成为大数据处理中心首选通用计算平台。Spark Core。原创 2024-01-25 14:03:09 · 1230 阅读 · 0 评论 -
Spark3内核源码与优化
Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等,熟练掌握 Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在任务提交后,都会先启动 Driver 程序;随后Driver 向集群管理器注册应用程序;集群管理器根据此任务的配置文件分配Executor 并启动;原创 2024-01-25 14:01:05 · 1334 阅读 · 0 评论 -
Kafka3学习笔记
Kafka是 一个开源的 分布式事件流平台 (Event StreamingPlatform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。Kafka-Eagle 框架可以监控 Kafka 集群的整体运行情况,在生产环境中经常使用。Kafka-Eagle 的安装依赖于 MySQL,MySQL 主要用来存储可视化展示的数据。Mysql安装可以参考之前hive的学习笔记。原创 2024-01-25 14:00:02 · 1519 阅读 · 0 评论 -
Kafka3.0源码学习
Sender 对象被放到了一个线程中启动,所有需要点击 newSender()方法中的 Sender,并找到 sender 对象中的 run()方法。生产者 sender 线程初始化,KafkaProducer.java中点击 newSender()方法,查看发送线程初始化。生产者 main 线程初始化,点击 main()方法中的 KafkaProducer()程序入口在core→src→main→scala→Kafka→kafka.scala。点击 main()方法中的 KafkaConsumer ()原创 2024-01-25 13:58:52 · 851 阅读 · 0 评论 -
Hive3.1.3基础学习
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序Hive中每张表的数据存储在HDFSHive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez)执行程序运行在Yarn上# 创建数据库# 创建一个数据库,不指定路径。原创 2024-01-25 13:56:22 · 971 阅读 · 0 评论 -
Hadoop3.x源码解析
文章目录一、RPC通信原理解析1、概要2、代码demo二、NameNode启动源码解析1、概述2、启动9870端口服务3、加载镜像文件和编辑日志4、初始化NN的RPC服务端5、NN启动资源检查6、NN对心跳超时判断7、安全模式三、DataNode启动源码解析1、概述2、初始化DataXceiverServer3、初始化HTTP服务4、初始化DN的RPC服务端5、DN向NN注册6、向NN发送心跳四、HDFS上传源码解析1、概述2、create创建过程2.1 DN向NN发起创建请求2.2 NN处理DN的创建请求原创 2024-01-25 13:54:37 · 1163 阅读 · 0 评论 -
Hadoop3.x学习笔记
文章目录一、Hadoop入门1、Hadoop概述1.1 简介1.2 hadoop优势1.3 hadoop组成1.4 大数据技术生态体系2、环境准备(重点)2.1 模板机配置2.2 模板创建3、本地运行模式(官方WordCount)4、Hadoop集群搭建(🌟重点)4.1 环境准备(集群分发脚本xsync)4.2 SSH免密配置4.3 集群配置4.4 启动集群4.5 配置历史服务器4.6 配置日志的聚集4.7 集群启动/停止方式总结4.8 Hadoop集群常用脚本4.9 常用端口号说明4.10 集群时间同步(原创 2024-01-25 13:51:59 · 1459 阅读 · 0 评论 -
Flume1.9基础学习
Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据(或者网络端口数据),将数据写入到HDFS使用 Flume 监听一个端口,收集该端口数据,并打印到控制台。原创 2024-01-25 13:41:52 · 1289 阅读 · 0 评论 -
离线数据同步Sqoop与DataX
Sqoop全称是(现已经抛弃),是一个开源工具,能够将数据从数据存储空间(数据仓库,系统文档存储空间,关系型数据库)导入 Hadoop 的 HDFS或列式数据库HBase,供 MapReduce 分析数据使用。数据传输的过程大部分是通过 MapReduce 过程来实现,只需要依赖数据库的Schema信息Sqoop所执行的操作是并行的,数据传输性能高,具备较好的容错性,并且能够自动转换数据类型。Sqoop是一个为高效传输海量数据而设计的工具,一般用在从关系型数据库同步数据到非关系型数据库中。原创 2023-05-03 09:28:09 · 1451 阅读 · 0 评论