data warehouse
逝水-无痕
这个作者很懒,什么都没留下…
展开
-
基于CentOS7的hive远程模式部署
文章目录3台服务器部署结构一、前提条件1、确保集群中已经安装好了hadoop(2.7及以上版本);二、安装元数据库三、安装hive1、下载hive安装包,下载地址:http://mirror.bit.edu.cn/apache/hive/hive-3.1.1/2、将下载的hive安装包放到/usr/local目录,解压缩安装包3、配置hive环境变量4、验证hive是否安装成功四、配置hive1、...原创 2019-02-19 14:38:38 · 1025 阅读 · 0 评论 -
搭建Hive on Spark on YARN常见问题及解决方案
文章目录1、在Hive cli中往表中插入记录,报错信息如下错误信息a错误信息b1、在Hive cli中往表中插入记录,报错信息如下错误信息aUnrecognized Hadoop major version number: 3.2.0当时环境版本信息:hadoop版本:3.2.0spark版本:2.4.0hive版本:3.1.1解决方案:版本兼容性问题,通过查看hive源码根...原创 2019-03-02 11:47:41 · 10931 阅读 · 4 评论 -
Hive on Spark on YARN配置整理
文章目录版本兼容性spark安装(建议源码编译安装)源码编译(以spark-2.3.3版本,hadoop-3.1.0版本为例)YARN配置Hive配置To add the Spark dependency to HiveConfigure Hive execution engine to use SparkConfigure Spark-application configs for HiveAl...原创 2019-03-04 20:03:30 · 4995 阅读 · 0 评论 -
Hive基本操作
文章目录1、Hive在HDFS上的默认存储路径2、hive中的数据库查看数据库切换数据库(如切换到数据库kaidy)创建数据库删除数据库3、hive中的表查看数据库中所有的表创建表删除表查看已创建的表信息输出创建指定表或者视图的语句列出表所有属性查看表中的全部数据查看表中的记录数查看表中前5条数据外部表和内部表4、分区(partition)建立分区表查看分区信息partition指定分区查看数据删...原创 2019-03-21 15:38:40 · 229 阅读 · 0 评论 -
Hive远程模式部署&跨集群迁移
文章目录部署规划元数据库MySql安装首先清除CentOS7系统中默认的数据库mariadb,否则不能安装mysql安装MySql测试MySql安装是否成功MySql远程访问授权配置hive安装安装hive配置hivehive集成MySql作为元数据库Hive跨集群迁移部署规划iphostnameinstall softwareprocess10.62.84.37ma...原创 2019-06-01 17:01:34 · 1624 阅读 · 0 评论 -
data warehouse——常用术语及定义
文章目录ods表 —— 物理表edw表 —— 维度表/逻辑表业务主键 —— 业务主键的作用:去重、缓慢变化自然健代理健数据集成-》数据研发-》运维中心缓慢变化(代理健保证)...原创 2019-07-18 15:49:11 · 834 阅读 · 0 评论 -
维度建模
文章目录WhyWhat核心原则附录Why可理解性好;查询性能高;减少存储冗余的信息,即减少空间开销;What事实表与维度表主键与外键核心原则物理世界的每一个度量事件与对应的事实表行具有一对一的关系;同一事实表中的所有度量行必须具有相同的粒度;附录粒度:事实表中的每行对应一个度量事件,每行中的数据是一个特定级别的细节数据,称为粒度。...原创 2019-07-24 12:28:33 · 142 阅读 · 0 评论