大数据系列
文章平均质量分 83
大数据相关的知识点
后端技术那点事
这个作者很懒,什么都没留下…
展开
-
Kerberos从入门到精通以及案例实操系列(二)
所以在安全的Hadoop环境下,Kylin不需要做额外的配置,只需要具备一个Kerberos主体,进行常规的认证即可。若Presto对接的是Hive数据源,由于其需要访问Hive的元数据和HDFS上的数据文件,故也需要对Hive Connector进行Kerberos认证。启用Kerberos认证之后,关闭HBase时,需先进行Kerberos用户认证,认证的主体为hbase。但是Kylin所依赖的HBase需要进行额外的配置,才能在安全的Hadoop环境下正常工作。以下说明均基于普通用户。原创 2023-06-05 16:59:07 · 1107 阅读 · 0 评论 -
Kerberos从入门到精通以及案例实操系列(一)
整个kerberos认证的过程较为复杂,三次通信中都使用了密钥,且密钥的种类一直在变化,并且为了防止网络拦截密钥,这些密钥都是临时生成的Session Key,即他们只在一次Session会话中起作用,即使密钥被劫持,等到密钥被破解可能这次会话都早已结束,这为整个kerberos认证过程保证了较高的安全性。kerberos认证的整体流图kerberos认证的时序图本地登录(无需认证)远程登录(需进行主体认证,认证操作见下文)退出输入:exit2. 创建Kerberos主体。原创 2023-06-05 20:00:00 · 6084 阅读 · 2 评论 -
Ranger从入门到精通以及案例实操系列
RangerUsersync作为Ranger提供的一个管理模块,可以将Linux机器上的用户和组信息同步到RangerAdmin的数据库中进行管理。Ranger Hive-plugin是Ranger对hive进行权限管理的插件。需要注意的是,Ranger Hive-plugin只能对使用jdbc方式访问hive的请求进行权限管理,hive-cli并不受限制。原创 2023-06-05 11:35:45 · 2186 阅读 · 0 评论 -
Zabbix从入门到精通以及案例实操系列
Zabbix是一款开源的网络监控、管理和预警系统,可以监控各种网络设备和应用程序,并提供了丰富的通知方式和可视化展示功能。它可以帮助企业实时监测IT基础设施的状态和性能,快速定位和解决潜在问题,使得企业的IT运维更加高效、可靠和安全。原创 2023-05-31 10:19:45 · 2538 阅读 · 0 评论 -
Presto从入门到精通以及案例实操系列
Presto最初由Facebook公司开发,旨在解决Facebook内部大规模数据处理和数据分析的问题。在传统的Hadoop生态圈中,MapReduce作为数据处理框架,虽然能够处理海量数据,但是其查询性能却比较低下,尤其是对于需要进行交互式查询(如数据探索、数据挖掘等)的应用场景,更是不够灵活。为了解决这一问题,Facebook团队在2012年开始开发Presto,其目标是建立一个高性能、可扩展、支持SQL查询语言的跨平台数据处理引擎,以适应Facebook内部不断增长的数据规模和业务需求。原创 2023-05-29 23:00:00 · 1110 阅读 · 0 评论 -
Kylin从入门到精通以及案例实操系列
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区,它能在亚秒内查询巨大的Hive表。Kylin 基于 Hadoop 和 HBase 构建,能够支持超大规模数据的查询和分析,并且具有低延迟、高并发、高可扩展等优点。原创 2023-05-26 17:09:14 · 1920 阅读 · 1 评论 -
Azkaban从入门到精通以及案例实操系列
Azkaban从入门到精通再到实战一文搞定原创 2023-05-24 11:36:14 · 2938 阅读 · 0 评论 -
Flink从入门到精通系列(十)
Flink CEP原创 2023-03-17 00:00:00 · 525 阅读 · 0 评论 -
Flink从入门到精通系列(九)
Flink函数原创 2023-03-16 03:00:00 · 653 阅读 · 0 评论 -
Flink从入门到精通系列(八)
Flink Table API和SQL原创 2023-03-15 19:59:26 · 736 阅读 · 0 评论 -
Flink从入门到精通系列(七)
Flink状态编程以及容错机制原创 2023-03-14 00:08:06 · 497 阅读 · 1 评论 -
Flink从入门到精通系列(六)
Flink多流转换、处理函数原创 2023-03-12 20:13:32 · 470 阅读 · 0 评论 -
Flink从入门到精通系列(五)
Flink的时间语义和窗口函数原创 2023-03-12 11:12:41 · 532 阅读 · 0 评论 -
Flink从入门到精通系列(四)
flink的转换算子、聚合算子、输出算子以及案例实操原创 2023-03-11 15:51:56 · 930 阅读 · 0 评论 -
Flink从入门到精通系列(三)
Flink 运行时架构、作业的提交流程、数据流图、并行度、算子链、作业图与执行图、任务与任务槽原创 2023-03-10 12:38:35 · 860 阅读 · 0 评论 -
Flink从入门到精通系列(二)
Flink独立资源、yarn提供资源模式中的会话模式部署、单作业模式部署、应用模式部署原创 2023-03-09 20:30:08 · 1115 阅读 · 0 评论 -
Flink从入门到精通系列(一)
Flink概述、流式数据处理的发展是演变以及Flink的快速入门案例原创 2023-03-09 16:38:52 · 2851 阅读 · 0 评论 -
Superset数据探索和可视化平台入门以及案例实操
Superset数据探索以及可视化原创 2023-03-08 19:41:28 · 1327 阅读 · 0 评论 -
DolphinScheduler理论知识以及手机、邮箱、钉钉、电话等多种告警部署实操
DolphinScheduler理论知识以及案例实操原创 2023-03-08 16:47:57 · 3307 阅读 · 0 评论 -
数据仓库之建模理论以及仓库设计思想
数据仓库之建模理论以及仓库设计思想原创 2023-03-01 00:13:03 · 1982 阅读 · 0 评论 -
DataX案例实操
DataX案例实操,DataX案例实操,DataX案例实操原创 2023-02-04 15:15:59 · 1831 阅读 · 0 评论 -
Flume集群安装部署、Kafka集群安装部署以及Maxwell安装部署实战
Flume集群安装部署、Kafka集群安装部署以及Maxwell安装部署实战原创 2023-01-25 14:43:34 · 1992 阅读 · 3 评论 -
Hadoop集群中HDFS的API测试案例以及MapReduce的多种提交Job方式案例
Hadoop集群中HDFS的API测试案例以及MapReduce的多种提交Job方式案例原创 2022-12-09 11:44:23 · 862 阅读 · 0 评论 -
HBase系列从入门到精通(三)
Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。原创 2022-10-23 00:52:42 · 410 阅读 · 0 评论 -
HBase系列从入门到精通(二)
由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高HBase性能。一条数据的唯一标识就是rowkey,那么这条数据存储于哪个分区,取决于rowkey处于哪个一个预分区的区间内,设计rowkey的主要目的 ,就是让数据均匀的分布于所有的region中,在一定程度上防止数据倾斜。原创 2022-10-23 00:27:01 · 484 阅读 · 0 评论 -
HBase系列从入门到精通(一)
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。原创 2022-10-16 22:19:48 · 325 阅读 · 0 评论 -
Spark系列从入门到精通(三)
Spark案例实操原创 2022-09-12 12:08:06 · 190 阅读 · 0 评论 -
Spark系列从入门到精通(二)
Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执行时的基本结构。原创 2022-09-10 11:39:26 · 682 阅读 · 0 评论 -
Spark系列从入门到精通(一)
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。原创 2022-09-02 00:09:34 · 514 阅读 · 0 评论 -
Scala系列从入门到精通(三)
Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable特质。对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包不可变集合:scala.collection.immutable可变集合: scala.collection.mutableScala 不可变集合,就是指该集合对象不可修改,每次修改就会返回一个新对象,而不会对原对象进行修改。类似于 java 中的 String 对象。...原创 2022-08-31 21:47:21 · 278 阅读 · 0 评论 -
Scala系列从入门到精通(二)
Sacla的基础语法内容原创 2022-08-28 22:30:16 · 284 阅读 · 0 评论 -
Scala系列从入门到精通(一)
Spark—新一代内存级大数据计算框架,是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。Spark的兴起,带动Scala语言的发展!原创 2022-08-23 17:35:56 · 291 阅读 · 0 评论 -
DataX从入门实战到精通一文搞定
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。Oracle Database,又名 Oracle RDBMS,或简称 Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说 Oracle 数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。.原创 2022-08-14 22:35:43 · 4056 阅读 · 0 评论 -
Flume从入门实战到精通再到面试一文搞定
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。...原创 2022-08-14 19:53:18 · 170 阅读 · 0 评论 -
HIVE常见面试题以及实战练习(六)
HIVE常见面试题和实战练习原创 2022-08-07 12:58:55 · 959 阅读 · 0 评论 -
HIVE源码阅读(五)
Hive源码分析原创 2022-08-07 11:24:34 · 633 阅读 · 0 评论 -
HIVE高级调优(四)
HIVE高级调优原创 2022-07-31 22:29:22 · 1305 阅读 · 0 评论 -
HIVE入门详情(三)
Hive系列原创 2022-07-30 18:48:37 · 6570 阅读 · 0 评论 -
HIVE入门详情(二)
Hive的DDL操作原创 2022-07-22 23:08:56 · 641 阅读 · 0 评论 -
neo4j安装、运行以及项目的构建和功能实现
知识图谱构建,neo4j图数据库原创 2022-06-29 23:11:47 · 1273 阅读 · 0 评论