- 博客(4)
- 收藏
- 关注
原创 【无标题】
CREATE EXTERNAL TABLE 表名 like 存在的表名;CREATE TABLE 表名 as select语句;CREATE TABLE 表名 like 存在的表名;注意: 外部表不能使用truncate关键字清空数据。desc formatted 表名;truncate table 内部表名;desc formatted 表名;drop table 内部表名;drop table 外部表名;
2024-04-25 20:40:19 373
原创 【无标题】
数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。面向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。数据结构化,数据共享性,数据独立性,数据完整性,数据安全性,数据恢复性。• 创建数据库并指定hdfs存储位置。
2024-04-24 21:09:02 576
原创 Hive和HDFS
对数据进行统计分析,SQL是目前最为方便的编程工具,大数据体系中充斥着非常多的统计分析场景,所以使用SQL去处理数据,在大数据中也是有极大的需求的。它将每一个文件储存以西开裂 的数据块,这个数据块被称为block,其中除了最后一个,所有的block块的大小都是相等的。为了防止不可控制的原因导致部分block块丢失造成文件缺失,因此文件的所有block块都会备份,其中每个文件的block块大小和副本系数都是可以配置的。在Hadoop中,文件的block块的大小是128M.1.将我们的文件转化为表结构;
2024-04-23 22:05:24 385 2
原创 初学Hadoop
Hadoop是一个由Apache开源组织开发的分布式计算框架,主要用于处理海量数据。它采用Java语言编写,具有高扩展性,可以方便地在集群间分配任务数据,并扩展数以千计的节点。Hadoop主要解决海量数据的存储和海量数据的分析计算问题。 分布式是将一个系统拆分为多个子系统,多个子系统部署在多个服务器上,多个服务器上的子系统协同合作完成一个特定任务。 集群是将一个系统完整的部署到多个服务器上,每个服务器都能提供系统的所有服务,多个服务器通过负载均衡调度完成任务。 分布式和集群的区别:分布式是将一个任务分
2024-04-22 23:29:31 168 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人