![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark大数据
文章平均质量分 82
Re
ecs
展开
-
Hive相关操作指南
Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上创建一个数据库,数据库在HDFS上的默认存储路径是/opt/hive/warehouse/*.db1。原创 2024-05-10 08:46:19 · 303 阅读 · 1 评论 -
Hive 组件安装配置实验操作
Hive 组件安装配置,配置 Hive 组件,配置 MySQL 数据库 root 的密码。原创 2024-04-07 11:54:11 · 1961 阅读 · 0 评论 -
了解hadoop生态圈
以上是hadoop体系下的常见的组件的功能和作用详解,过去hadoop体系的组件会作为搭建数据仓库的常用组件,数据仓库不仅是一个数据存储和数据分析的分布式存储框架,数据仓库是一个整体的解决方案的,而我们常说的hfds、是一个分布式存储系统,hbase是列式数据库,它是数据存储,不是数据仓库。Atlas的目标是提供一个全面的、集中的数据资产管理平台,帮助用户更好地理解、管理和查询数据资产的元数据,从而提高数据的可发现性、可用性和安全性。用户可以指定作业之间的依赖关系、作业执行的顺序、作业的输入和输出等。原创 2024-03-15 08:15:39 · 1812 阅读 · 0 评论 -
Spark的定义与概述
Spark是基于内存计算的大数据分布式计算框架,Spark基于内存,Hadoop MapReduce基于硬盘,Spark组件,Spark部署方式原创 2024-03-08 11:12:54 · 831 阅读 · 1 评论