m0_74959213-CSDN博客

原创【无标题】

CREATE EXTERNAL TABLE 表名 like 存在的表名;CREATE TABLE 表名 as select语句;CREATE TABLE 表名 like 存在的表名;注意: 外部表不能使用truncate关键字清空数据。desc formatted 表名;truncate table 内部表名;desc formatted 表名;drop table 内部表名;drop table 外部表名;

2024-04-25 20:40:19 376

原创【无标题】

数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。面向主题的（Subject-Oriented ）、集成的（Integrated）、稳定的（Non-Volatile）和时变的（Time-Variant ）数据仓库层（DW）：也称为细节层，DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。数据结构化，数据共享性，数据独立性，数据完整性，数据安全性，数据恢复性。• 创建数据库并指定hdfs存储位置。

2024-04-24 21:09:02 580

原创 Hive和HDFS

对数据进行统计分析，SQL是目前最为方便的编程工具，大数据体系中充斥着非常多的统计分析场景，所以使用SQL去处理数据，在大数据中也是有极大的需求的。它将每一个文件储存以西开裂的数据块，这个数据块被称为block，其中除了最后一个，所有的block块的大小都是相等的。为了防止不可控制的原因导致部分block块丢失造成文件缺失，因此文件的所有block块都会备份，其中每个文件的block块大小和副本系数都是可以配置的。在Hadoop中，文件的block块的大小是128M.1.将我们的文件转化为表结构；

2024-04-23 22:05:24 414 2

原创初学Hadoop

Hadoop是一个由Apache开源组织开发的分布式计算框架，主要用于处理海量数据。它采用Java语言编写，具有高扩展性，可以方便地在集群间分配任务数据，并扩展数以千计的节点。Hadoop主要解决海量数据的存储和海量数据的分析计算问题。分布式是将一个系统拆分为多个子系统，多个子系统部署在多个服务器上，多个服务器上的子系统协同合作完成一个特定任务。集群是将一个系统完整的部署到多个服务器上，每个服务器都能提供系统的所有服务，多个服务器通过负载均衡调度完成任务。分布式和集群的区别：分布式是将一个任务分

2024-04-22 23:29:31 170 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【无标题】

原创 【无标题】

原创 Hive和HDFS

原创 初学Hadoop

空空如也

空空如也

原创【无标题】

原创【无标题】

原创初学Hadoop