![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据架构
afansdie
这个作者很懒,什么都没留下…
展开
-
基于hive的大数据量的优化处理实例
最近在做一个项目时遇到一个问题,是关于大数据量的数据,具体为一个800亿的轻度汇总数据,去关联一个7亿左右的另一个轻度汇总数据。 主要遇到的问题有: 1,800亿的轻度汇总数据读写困难,耗费时间、资源大; 2,两表进行关联处理数据计算慢。 背景:(完全假设来说) A表是以用户、城市维度的出现次数数据,字段主要有uid、city_id,cnt B表是以用户、城市维度的出现次数标准数据,字段主要有ui...原创 2019-07-23 20:39:58 · 3849 阅读 · 1 评论 -
基于Flink的流数据处理架构
随着数据量越来越来,越来越被人们所应用,数据也越来越被重视,离线数据处理已经远远不能满足业务上的一些需求,而基于流的数据处理将成为整个数据架构的核心,本文主要基于Flink介绍一下流处理的架构以及在数据处理中所扮演的重要角色。 本文首先介绍一下传统架构和流处理结构的异同之处: 传统的数据处理架构是采用一个中心化的数据库系统,主要用于存储事务性数据,这些数据反映了当前的业务状态。需要新鲜的数据的应用...翻译 2019-07-21 21:51:08 · 554 阅读 · 0 评论