小时级实时数据仓库构建方法及注意知识点

本文详述了小时级实时数据仓库的构建过程,包括数据源有序化、Kafka集群的使用以及消费数据形成小时级文件。同时讨论了微服务中的RESTfulController与传统Controller的区别,并介绍了数据传输中可能遇到的问题及HTTP的传输方式。此外,还涵盖了Kafka的四种消费方式。
摘要由CSDN通过智能技术生成
  • 小时级实时数据仓库构建的开发流程
    • 1、找到数据流(done)
    • 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产过程。
    • 3、接收微博数据流数据
    • 4、转发到kafka集群
    • 5、kafka集群的搭建与运维(done)
    • 6、消费kafka形成小时级的微博数据文件
    • 7、将小时级文件定期、自动化load到小时级微博数据分区表
  • 小时级实时数据仓库构建的详细开发过程
    • 1、找到数据流(done)
    • 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产过程。
      • 1)将weibo_product表的数据进行部分有序化落地到本地文件当中。
      • 2)将本地有序的微博数据,通过模拟数据请求的方式,将数据逐条发送到微博数据接收服务端,从而形成微博数据流。(done)
    • 3、接收微博数据流数据(done)
    • 4、转发到kafka集群 (done)
    • 5、kafka集群的搭建与运维(done)
    • 6、消费kafka形成小时级的微博数据文件(done)
    • 7、将小时级文件定期、自动化load到小时级微博数据分区表
  • Web服务分类-按其依赖度
    • 传统服务-重量级服务
      • Web service
        • Xfire等组件
    • 微服务-轻量级服务
      • Restful service
        • 不需要依赖服务器端的任何组件,即可通过纯http进行交互。
  • 微服务restcontroler和传统controller对比说明
    • 相同点
      • 都属于controller层。
      • 都能起到路径拦截作用
    • 区别
      • 传统control拦截处理完成后返回的是页面。
      • 而restful拦截处理完成后返回的是纯数,一般是纯文本或是json居多。
      • 应用场景说明
        • 传统的用户页面功能的跳转过程。
        • 微服务主做页面的数据交互。
  • Curl
    • 号称“linux的浏览器”。
    • 也称为无头浏览器,即没有界面的意思。
  • 数据传输过程当中的常用问题
    • 1、少数据
    • 2、数据不正确
    • 3、数据乱码问题
      • 编码和解码问题
      • 只要保证编码和解码的一致性、兼容性即可解决。
      • 比如:java io,url编码。
  • http的传输方式?有什么区别和联系?
    • 传统方式
      • Get,post,put,delete。
      • 最常见的是get,post
    • Get,post的区别联系?
      • 联系
        • 都是http协议的传输方式,而且是最常用的。
      • 区别
        • 1)表现形式:get是放到浏览器地址栏当中显示,post传输的数据实体部分是放到http协议的data字段当中。
        • 2)数据内部封装不同:get的是封装到http header当中,而post是header只放url,数据是放到http data当中。
        • 3) 大小不一样:get是有大小限制,默认是64K,post是在http data当中,一般是不限制大小的。
        • 4)安全性方面:get是放到浏览器地址栏所以安全性较低, 而post是放到data数据体当中,不容易被捕捉的到,安全性较高一些。
  • MVC
    • Model view controller
    • View:视图,是用户与系统交互的界面部分。
    • Controller:控制器,也称为拦截器,拦截用户的请求,将对应的请求交给Model去处理,完成后再转发给View端。
    • Model:业务模型层
      • 模型层:对现实事物的抽象,即Entity类。
      • 业务处理层:对模型当中的关系进行计算处理,即Manager。
  • Kafka的四种消费方式
    • 1) console版
    • 2) java版
    • 3) scala版
    • 4) streaming集成kafka
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
上百节课视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程采用由浅入深,层层递进的讲解方式, 让你轻松掌握企业数仓架构的搭建及使用, 使用该架构可以胜任企业实时数仓和离线数仓构建。 课程内容: 1. 项目背景介绍 2. 数据建模应用 3. 基于Kylin的OLAP分析 4. 需求分析与项目设计 5. 订单与销售额指标计算 6.行为指标计算 7.Druid的安装和使用 8.流式数仓实现 适用人群: 1、对企业数据仓库构建感兴趣,有一定大数据基础。 2、对目前职业有进一步提升要求,希望从事数据行业高薪工作的在职人员。 3、对数据行业感兴趣的相关人员。 基础课程主讲内容包括: 阶段一:千亿实时数仓项目总体介绍 1. 数据仓库在企业里面的重要性 2. 千亿实时数仓的项目演示 阶段二: 数据建模的应用 1. 为什么要数据建模 2. 维度和指标的概念 3. 指标和维度建模案例 阶段三. 数据仓库从0到1的过程 1. 数仓典型分层思想(ODS、DWB、DWS、DM、ADS) 2. 数仓建设0到1的过程实战 3. 企业数据仓库设计的规范 阶段四:基于Kylin的OLAP分析 1. Kylin自带的example案例介绍 2. Kylin的Cube创建 3. Kylin的数据膨胀介绍 阶段五:需求分析与项目设计 1. 需求分析 2. canal搭建 3. canal数据写入kafka 阶段六:订单与销售额指标计算 1. 销售额指标体系介绍 2. flink实时消费Kafka订单数主题数据 3. 订单金额指标统计 阶段七:行为指标计算 1. 模拟通过埋点方式采集行为数据 2. 使用Flink Streaming计算用户行为相关指标 3. Flink CEP实现转化率分析 阶段八: Druid的安装和使用 1. Druid实时数据摄入 2. Druid基于JSON查询语法 3. Imply Pivot可视化数据分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值