大数据
文章平均质量分 94
介绍大数据体系相关技术
夜夜流光相皎洁_小宁
九零后技术大叔,从事信息安全行业,架构师,JavaWeb、大数据、移动应用开发,关注移动应用安全、大数据安全、云原生安全、网络安全渗透、攻防等领域;喜欢交流和分享,喜欢读书,什么书都会读一读,比较杂;闲暇时间喜欢做技术总结,喜欢探索技术、解锁新技能。
展开
-
ClickHouse分布式集群部署
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。 clickhouse可以做用户行为分析,流批一体,线性扩展和可靠性保障能够原生支持 shard + replication原创 2023-09-21 14:09:44 · 9735 阅读 · 4 评论 -
Hbase分布式集群部署
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据存储在 HDFS 上。今天我们就来在我们的虚拟机中实现HBase分布式集群服务部署原创 2023-09-21 11:41:56 · 9470 阅读 · 1 评论 -
Hive 的权限管理
hive自身支持三种权限管理模型,默认情况下是不开启的,这样会导致所有的用户都具有相同的权限,且默认都是超级管理员,超管对hive中的所有表都有查看和改动的权利,这样是不符合一般数据仓库的安全原则的,今天我们就来探究下Hive的权限管理原创 2023-09-21 11:01:22 · 11497 阅读 · 2 评论 -
Hive 优化建议与策略
为啥Hive需要优化? Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者MapReduce作业的调优对于Hive 查询性能有较大提高,本问介绍了工作中经常会用到的hive相关优化技巧原创 2023-09-20 21:46:08 · 902 阅读 · 2 评论 -
Hive 的函数介绍
hive中的函数其实与Java与MySQL中的函数概念一样,封装了一段实现某些功能的代码,今天我们来学习下Hive 相关的函数,我们自己也学着通过代码自定义UDF和UDTF函数原创 2023-09-20 18:17:40 · 9448 阅读 · 1 评论 -
Hive的分区和分桶
为了提高查询数据的效率,Hive 提供了表分区机制。分区表基于分区键把具有相同分区键的数据存储在一个目录下,在查询某一个分区的数据的时候,只需要查询相对应目录下的数据,而不会执行全表扫描,也就是说,Hive 在查询的时候会进行分区剪裁。每个表可以有一个或多个分区键。Hive 可以对每一个表或者是分区,进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive 是针对表的某一列进行分桶。Hive 采用对表的列值进行哈希计算,然后除以桶的个数求余的方式决定该条记录存放在哪个桶中。分桶的好处是可以获得更高的查原创 2023-09-20 15:53:33 · 9684 阅读 · 1 评论 -
Hive的基本SQL操作(DDL篇)
Hive SQL(HQL)与SQL的语法大同小异,基本上是相通的,学过SQL的使用者可以无痛使用Hive SQL。只不过在学习HQL语法的时候,特别要注意Hive自己特有的语法知识点,今天我们就来学习下Hive SQL的DDL语句原创 2023-09-20 15:19:47 · 10133 阅读 · 3 评论 -
一篇文章教会你搭建Hive分布式集群
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。在大数据技术生态体系中扮演着重要的角色,今天我们就通过一篇文章来教会你如何搭建部署Hive分布式集群。原创 2023-09-20 14:23:57 · 10382 阅读 · 2 评论 -
一篇文章带你学会Hadoop-3.3.4集群部署
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。在进行自学的时候,我们都需要自己搭建一个稳定的hadoop集群,但是hadoop的集群部署还是比较麻烦的,今天我就带你通过我的一篇文章,学会部署hadoop集群。原创 2023-09-19 21:58:15 · 10244 阅读 · 2 评论 -
Hive 数据仓库介绍
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。原创 2023-09-19 22:29:07 · 10106 阅读 · 2 评论 -
MapReduce介绍
MapReduce是一个用于大规模数据处理的分布式计算模型,最初由Google工程师设计并实现的,Google已经将完整的MapReduce论文公开发布了。其中的定义是,MapReduce是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对,再定义一个reduce函数将所有这些中间的有相同Key的Value合并起来。很多现实世界中的任务都可用这个模型来表达。原创 2023-08-17 18:42:10 · 19674 阅读 · 2 评论 -
YARN框架和其工作原理流程介绍
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。原创 2023-08-14 17:50:19 · 19100 阅读 · 3 评论