Hive
文章平均质量分 78
isyslab
这个作者很懒,什么都没留下…
展开
-
Hive自定义函数实现通过日期计算星座
虽然Hive已经提供了很多内置的函数,比如count()、sum(),但是还是不能满足用户的需求,因此提供了自定义函数供用户自己开发函数来满足自己的需求。一、自定义函数分类 UDF(User-Defined-Function)用户自定义函数,输入一个数据然后产生一个数据; UDAF(User-Defined Aggregation Function)用户自定义聚合函数,多个输...原创 2018-04-18 10:47:10 · 3737 阅读 · 0 评论 -
Hive调用python脚本实现数据清洗、统计过程
本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。操作步骤:1、创建基表CREATE TABLE u_data ( userid INT, //用户ID movieid INT, //电影ID rating INT, //电影评分 unixtime STRING)。 //时间戳ROW FORMAT DEL...原创 2018-05-18 16:11:11 · 10862 阅读 · 0 评论 -
浅谈数据仓库的核心概念
1、数据仓库定义 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数据仓库发展历程 数据仓库的发展大致经历了这样的三个过程: ● 简单报表阶段:这个阶段,系统的主要目标是...原创 2018-08-20 17:33:43 · 7370 阅读 · 1 评论 -
数据倾斜解决方案
数据倾斜定义简单的讲,数据倾斜就是我们在数据计算的时候,由于数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些机器的计算速度远远低于整个集群的平均计算速度,导致整个计算过程十分缓慢。常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中,比如: ● 用Hive数据计算的时候reduce阶段卡在99.99% ● 用SparkStreaming做实时算法...原创 2018-09-05 21:43:38 · 1820 阅读 · 0 评论 -
数据质量保障原则
评估数据质量的好坏,业界标准并不统一。阿里巴巴对数据仓库主要从四个方面进行评估,即完整性、准确性、一致性和及时性。完整性完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成数据不准确,所以说完整性是数据质量最基础的保障。比如交易中每天支付订单数都在100万笔左右,如果某一天支付订单数突然下降到1万笔,那么很可能是记录缺失...翻译 2018-10-03 20:02:46 · 3204 阅读 · 0 评论