- 博客(3)
- 收藏
- 关注
原创 离线数仓之Hive的基础操作
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
2024-08-08 21:27:35 2039
原创 新手小白的Hadoop分布式和集群简述
Apache Hadoop是一个开源的分布式计算框架,它允许用户在节点组成的集群中处理和分析大数据。Hadoop是“Hadoop之父”Doug Cutting的著作,最初是在Nutch搜索引擎项目中开发的,用于解决网页爬虫的存储和搜索问题。Hadoop的核心由以下几个部分组成:HDFS(Hadoop Distributed File System):Hadoop自己的文件系统,用于在计算机集群中存储文件。
2024-08-06 20:14:16 1282
原创 新手小白的Linux基础分享简介
Linux操作系统是基于UNIX操作系统发展而来的一种克隆系统,它诞生于1991 年的 [Linux桌面] 10 月5 日(这是第一次正式向外公布的时间)。以后借助于Internet网络,并通过全世界各地计算机爱好者的共同努力,已成为今天世界上使用最多的一种UNIX 类操作系统,并且使用人数还在迅猛增长。使用Linux的重要原因包括高安全性、高可用性、易于维护、运行在任何硬件上、免费、开源、容易使用,以及对于个人和职业发展的重要性。。
2024-08-04 16:56:27 1044 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人