自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大数据元数据管理

现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。(1)基础信息,包括库名称、库类型、表名称、表数量、表注释、表分区字段、表分区数量、字段名称、字段类型、字段长度、字段注释、字段默认值、主键信息、外键信息、索引信息等。

2024-04-02 10:29:12 393

原创 Hive基本命令

创建表:hive> CREATE TABLE pokes (foo INT, bar STRING);        Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n...

2018-09-06 15:11:25 86

原创 Hive核心概念

1.什么是hive基于 Hadoop 的一个数据仓库工具:hive本身不提供数据存储功能,使用HDFS做数据存储,hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能2.hive和Hadoop关系 ...

2018-09-06 15:07:40 233

原创 Hive核心内部表与外部表详解

内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定;删除内部表...

2018-09-06 14:55:00 149

原创 YARN

YARN是Hadoop的资源管理器。理解YARN如何为Hadoop集群提供灵活的资源管理 理解YARN如何拓展Hadoop使得能够支持多种框架如MapReduce、Spark、Giraph和FlinkYARN是Hadoop从1.0升级至2.0出现的,hadoop1.0只支持MapReduce任务、资源利用率低。如图,Hadoop2.0中加入YARN使得hadoop中的编程模型有了除MapR...

2018-09-06 14:08:38 127

原创 Hadoop介绍

HadoopHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,...

2018-09-06 10:54:34 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除