HIVE
dingweijson
这个作者很懒,什么都没留下…
展开
-
数据仓库建模与ETL的实践技巧
一、数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP 系统的分析需求为目的。 数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言...原创 2017-09-01 15:54:34 · 109 阅读 · 0 评论 -
hive JAVA API
package com.hqgf.hive; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.Statement; import java.text.SimpleDateFormat; import java.util.Da...原创 2018-01-08 16:35:52 · 126 阅读 · 0 评论 -
hive存储读取json格式的数据
转载:http://blog.csdn.net/javastart/article/details/51194640 背景 JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。 使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,...原创 2018-01-08 16:51:33 · 3762 阅读 · 0 评论 -
构建企业级数据仓库的五步法
一. 确定主题 即确定数据分析或前端展现的主题(例如:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系, 确定主题时要综合考虑. 二. 确定量度 确定主题后, 需要考虑分析的技术指标(例如: 年销售额等). 它们一般为数值型数据, 其中有些度量值不可以汇总; 有些可以汇总起来, 以便为分析者提供...原创 2018-06-04 17:03:22 · 171 阅读 · 0 评论 -
数据仓库分层架构
数据仓库分层的原因 1通过数据预处理提高效率,因为预处理,所以会存在冗余数据 2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大 3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了 标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层) ods:历史存储层,它和源系统数据是同构的,而且这一层数...原创 2018-06-12 14:37:52 · 412 阅读 · 0 评论 -
拷贝到hive路径下的文件查询出来全部为NULL
hive导入数据成功,但是查询结果为NULL,且未报错 这是因为创建表格时没有对导入的数据格式没有处理,比如每行数据以tab键隔开,以换行键结尾,就要以如下语句创建表格: CREATE TABLE users(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' LINES TERMINATED BY '\n' ...原创 2018-06-13 10:44:16 · 443 阅读 · 0 评论