![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
birdflyinhigh
这个作者很懒,什么都没留下…
展开
-
Hive基础知识
1.数仓概念的理解 数据仓库,英文名叫data warehouse. 主要使用来存储历史数据的。 数仓一般按主题划分,整合了不通数据源的所有数据,存储的一般是历史数据,基本不会有什么变化, 数据量会随着时间增量变化。 与传统业务数据库不同,传统数据库主要是面向事务,数仓主要是面向分析的,也就是主要有利于数据分析,就是可取的方向。 数据仓库的分层大致为数据源,ODS(细节数据), DW(数仓) , DA(数据应用)。 ETL将数据源数据抽取,转换,加载到数据仓库,用于数据分析。 2. Hive的理解 Hiv原创 2021-11-07 17:54:39 · 1452 阅读 · 0 评论 -
上传csv或excel到hive建表脚本
上传csv文件到hive, 自动建表小脚本。 支持解析字段类型 以parquet格式上传 # coding=utf8 """ requirements: tableschema sqlalchemy pandas pyarrow pyhive """ from __future__ import absolute_import from __future__ import division from __future__ import print_function from __future_原创 2021-05-28 17:31:48 · 288 阅读 · 1 评论