数据仓库
文章平均质量分 71
其实我是程序员
这个作者很懒,什么都没留下…
展开
-
Hive入门学习
一、HIVE概念。1.Hadoop一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL查询功能,可以将HQL语句转换为MapReduce任务进行运行。2.Hive适用于大数据集的批处理作业,例如:网络日志分析。不适用于:不能在大规模数据集上实现低延迟快速的查询。例如:Hive在几百MB的数据集上执行查询一般有分钟级的延迟。不支持联机事务处理。(OLTP)3.Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门原创 2022-04-06 14:56:51 · 1733 阅读 · 0 评论 -
HBase入门
一、概览HBase是一个分布式的,面向列的开源数据库。它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等。那Hbase有什么特性呢?如下:强读写一致,但是不是“最终一致性”的数据存储,这使得它非常适合高速的计算聚合。.自动分片,通过Region分散在集群中,当行数增长的时候,Region也会自动的切分和再分配自动的故障转移。Hadoop/HDFS集成,和HDFS开箱即用,不用太麻烦的衔接丰富的“简洁,高效”API,Thrift原创 2021-01-08 14:40:01 · 306 阅读 · 0 评论 -
数仓类项目走过的坑
1.SQL处理中NULL值容易导致各种问题,应考虑ODS层以上数据表字段的空值处理。比如维度属性默认设置为-1,度量字段默认为0.若觉得范围太大,最起码日常分析的维度属性、度量值要考虑空值的处理。2.不要太相信上游系统的数据质量,各种你想象不到的数据质量问题。应在开发阶段或之前,进行生产数据的探查,了解各字段的数据分布情况、各属性枚举值、空值情况。做对应处理。异常值的处理方案需要同步业务。3.ODS数据源层数据保持与上游一致,便于后续粗粒度数据的核对、数据溯源、以及应对后续各种新需求。识别原创 2021-06-24 18:24:26 · 1599 阅读 · 5 评论 -
阿里巴巴大数据实践所得二
一、数据质量完整性:指数据的记录和信息是否完整,是否存在缺失的情况。主要包括记录的缺失和字段的缺失。准确性:指数据中信息、数据是否准确,是否存在异常或错误的信息。一致性:数据的一致性。及时性:数据及时呈现、产出。数据具有时效性。结合项目,建议在数据的加工处理过程中,增加脏数据处理的步骤,这里需要依赖于业务数据的熟悉,预知哪部分数据容易出问题。质量管控方式:1.上游数据机构、规则逻辑发生变化,要及时通知下游2.数据生成加工各环节卡点校验,包括SQL扫描工具、代码测试、代码人工审核、生产数据原创 2021-06-17 14:47:06 · 176 阅读 · 0 评论