- 博客(6)
- 收藏
- 关注
原创 大数据元数据管理
现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。(1)基础信息,包括库名称、库类型、表名称、表数量、表注释、表分区字段、表分区数量、字段名称、字段类型、字段长度、字段注释、字段默认值、主键信息、外键信息、索引信息等。
2024-04-02 10:29:12
393
原创 Hive基本命令
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n...
2018-09-06 15:11:25
86
原创 Hive核心概念
1.什么是hive基于 Hadoop 的一个数据仓库工具:hive本身不提供数据存储功能,使用HDFS做数据存储,hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能2.hive和Hadoop关系 ...
2018-09-06 15:07:40
233
原创 Hive核心内部表与外部表详解
内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定;删除内部表...
2018-09-06 14:55:00
149
原创 YARN
YARN是Hadoop的资源管理器。理解YARN如何为Hadoop集群提供灵活的资源管理 理解YARN如何拓展Hadoop使得能够支持多种框架如MapReduce、Spark、Giraph和FlinkYARN是Hadoop从1.0升级至2.0出现的,hadoop1.0只支持MapReduce任务、资源利用率低。如图,Hadoop2.0中加入YARN使得hadoop中的编程模型有了除MapR...
2018-09-06 14:08:38
127
原创 Hadoop介绍
HadoopHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,...
2018-09-06 10:54:34
101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人