自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【无标题】

CREATE EXTERNAL TABLE 表名 like 存在的表名;CREATE TABLE 表名 as select语句;CREATE TABLE 表名 like 存在的表名;注意: 外部表不能使用truncate关键字清空数据。desc formatted 表名;truncate table 内部表名;desc formatted 表名;drop table 内部表名;drop table 外部表名;

2024-04-25 20:40:19 373

原创 【无标题】

数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。面向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。数据结构化,数据共享性,数据独立性,数据完整性,数据安全性,数据恢复性。• 创建数据库并指定hdfs存储位置。

2024-04-24 21:09:02 576

原创 Hive和HDFS

对数据进行统计分析,SQL是目前最为方便的编程工具,大数据体系中充斥着非常多的统计分析场景,所以使用SQL去处理数据,在大数据中也是有极大的需求的。它将每一个文件储存以西开裂 的数据块,这个数据块被称为block,其中除了最后一个,所有的block块的大小都是相等的。为了防止不可控制的原因导致部分block块丢失造成文件缺失,因此文件的所有block块都会备份,其中每个文件的block块大小和副本系数都是可以配置的。在Hadoop中,文件的block块的大小是128M.1.将我们的文件转化为表结构;

2024-04-23 22:05:24 385 2

原创 初学Hadoop

Hadoop是一个由Apache开源组织开发的分布式计算框架,主要用于处理海量数据。它采用Java语言编写,具有高扩展性,可以方便地在集群间分配任务数据,并扩展数以千计的节点。Hadoop主要解决海量数据的存储和海量数据的分析计算问题。 分布式是将一个系统拆分为多个子系统,多个子系统部署在多个服务器上,多个服务器上的子系统协同合作完成一个特定任务。 集群是将一个系统完整的部署到多个服务器上,每个服务器都能提供系统的所有服务,多个服务器通过负载均衡调度完成任务。 分布式和集群的区别:分布式是将一个任务分

2024-04-22 23:29:31 168 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除