大数据项目实战
文章平均质量分 87
实时数仓项目-Flink版
离线数仓项目-Hive_on_Spark
在线教育项目-Spark_one_Hive/SparkStreaming
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
离线数仓中的lzo索引
离线数仓中的lzo索引Q1:ODS层怎样设计的? (1)首先数据由Flume(hdfsSink)采集到HDFS上的 ① 此时指定了原始数据上传的路径hdfs.path ② 文件头信息hdfs.filePrefix ③ 是否滚动生成文件hdfs.round ④ 输出文件方式hdfs.fileType=CompressedStream ⑤ 设置了压缩输出文件就要指定压缩编码器:lzop (2)创建外部表 create external tabl原创 2021-05-06 09:59:05 · 283 阅读 · 0 评论 -
离线数仓03-数仓分层业务逻辑
1 数仓分层1.1 为什么要分层?(1)把复杂的问题简单化把复杂的任务分解为多层完成,方便定位问题~少写了很多复杂的sql(2)减少重复开发规范数据分层,通过中间数据,可以减少极大的重复计算,增加复用性中间结果保存出来,以后拿数据就能从中间获取,不用从最开始的数据拿(3)隔离原始数据将真实数据和要使用的统计数据解耦开;权限管理:控制哪些人可以访问哪些表。--数据怎么到ODS层?1. load2. flume -> hive sin原创 2021-03-07 00:32:07 · 1091 阅读 · 0 评论 -
离线数仓02-业务数据采集平台
1 电商业务简介1.1 电商业务流程1.2 电商常识SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。例如:iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。SPU表示一类商品。好处就是:可以共用商品图片,海报、销售属性等。1.3原创 2021-03-07 00:32:32 · 349 阅读 · 0 评论 -
离线数仓01-用户行为日志采集平台
1 数据仓库项目1.1 数据仓库概念数据仓库(Data Warehouse)①日志采集系统②业务系统数据③爬虫系统等获得的数据进行清洗、转义、分类、重组、合并、拆分、统计等操作。1.2 项目需求用户行为数据采集平台的搭建(前端埋点日志数据)业务数据采集平台的搭建(MySQL业务数据)数据仓库维度建模(hive数据分层:ods、dwd、dws、dwt、ads)即席查询工具,随时进行指标分析(es、kibana)集群性能监控元数据管理质量监控2 架构设计2.1 技术选型数据采集传原创 2021-03-06 02:06:47 · 436 阅读 · 0 评论 -
Flink电商实时数仓项目05-数据可视化
1 数据可视化接口1.1 设计思路之前把轻度聚合的结果都保存到了ClickHouse中,主要目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展示,一种是为专业的数据分析人员的BI工具,另一种是为非专业人员提供更加直观的数据大屏。 下面主要是面向百度的sugar的数据大屏服务的接口开发。1.2 需求梳理1.2.1 最终效果1.2.2 分析可视化大屏组件名称组件查询指标对应的数据表总成交金额数字翻牌订单总金额product_stats原创 2021-03-06 02:01:20 · 644 阅读 · 0 评论 -
Flink电商实时数仓项目04-DWS层
1 DWS层和DWM层的设计1.1 DWS层 前面的总结DWS层的定位是什么呢?轻度聚合,因为DWS层要应对很多实时查询,如果是完全的明细那么查询的压力非常大。将更多的实时数据以主题的形式组合起来便于管理,同时也能减少维度查询的次数。ODS层: -- 日志数据: nginx+日志采集服务器(3台) 将数据采集到Kafka(ods_base_log) -- 业务数据: Maxwell监控MySQL(binlog) 将数据采集到Kafka(ods_b原创 2021-03-06 02:00:09 · 646 阅读 · 0 评论 -
Flink电商实时数仓项目03-DWM层
1 DWM层与DWS层的设计思路1.1 设计思路用户行为日志:模拟日志jar -> nginx -> web日志服务器 -> kafka(ods_base_log) -> flink(BaseLogApp) -分流-> kafka(dwd_page_log|dwd_start_log|dwd_display_log) ->接下来要对数据做简单的处理,为后面的dws层的数据做准备,所以我们这里需要将数据做处理 发送到 dwm层业务数据:模拟数据jar ->原创 2021-03-06 01:59:05 · 1285 阅读 · 1 评论 -
Flink电商实时数仓项目02-DWD层
1 需求分析及实现思路1.1 分层需求分析1.1.1 实时数仓为什么要分层?建设实时数仓的目的,主要是为了增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。比如直接从dwd、dim、dwm、dws取数据。1.2 每层的职能分层数据描述生成计算工具存储媒介ODS原始数据,日志和业务数据日志服务器,maxwellkafkaDWD根据数据对象为单位进行分流,比如订单、页面访问等等。FLINKkafkaD原创 2021-03-06 01:57:57 · 510 阅读 · 0 评论 -
Flink电商实时数仓项目01-ODS层
Flink电商实时数仓项目 - 数据采集1 电商实时数仓项目概述1.1 数据分层分析离线数仓项目的分层为:ODS、DWD、DWS、DWT、ADSflink实时数仓项目的分层为:ODS、DWD、DIM、DWM、DWS、ADS其中ODS层为原始数据层;DWD层详细数据层,根据数据对象为单位进行分流,比如订单、页面访问等;DIM层维度数据层;DWM层对部分数据对象进一步加工,比如独立访问、跳出行为,也可以与维度进行关联,形成宽表,依旧是明细数据;DWS层根据某个主题将多个实时数据轻度聚合,原创 2021-03-06 01:56:43 · 999 阅读 · 3 评论