第三章:数据采集

数据采集在数仓开发中起着关键作用,包括数据库、日志、前端埋点和爬虫等数据来源。JDBC和抽取日志是常见采集方式,全量与增量抽取是常见机制。Flume、LogStash、Sqoop、DataX和Canal等工具用于数据采集。数据源权限管理和结构变更通知是主要挑战,需通过组织协调和流程规范解决。
摘要由CSDN通过智能技术生成

数据采集,在数仓开发过程中至关重要,它要求数据类型全、数据量完整、尽可能覆盖数据流转的各个环节,它是数仓建设的核心底座,毕竟巧妇难为无米之炊嘛。

1、数据的来源

  • 数据库:数据库不用过多介绍,业务系统例如CRM、ERP、财务系统等等,每天都会生成大量的业务数据,存储在mysql、SqlServer、Oracle等关系型数据库中
  • 日志:日志也是采集数据的重要来源,因为日志记录了程序执行的情况,例如用户登录数据、用户操作数据等,使用这些数据可以统计PV、UV等指标
  • 前端埋点:用户很多前端请求不会产生后端请求,例如点击,但是这些数据对分析用户行为有很大的价值
  • 爬虫:使用爬虫程序,爬取互联网上的竞品数据等

2、采集方式

  • JDBC 的方式:这种方式的优点是简单,但是缺点是可能会对数据库带来负载和压力,影响业务系统的操作效率
  • 抽取数据库日志的方式:这种方式抽取速度快,而且不会对数据库造成压力,Oracle 采用的是 OGG 方式,而 MySQL、SQL Server 等使用 CDC 方式。

3、采集机制

  • 全量抽取:数据初始化装载的时候,一定使用的是全量同步的方式
  • 增量抽取:除了第一次数据装载,之后每日的数据更新推荐使用增量同步方式。增量抽取需要依据数据库中create_time 和 update_time 字段

4、采集工具
数据采集常用框架有Flume、Sqoop、LogStash、Dat

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十五楼亮哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值