数据获取
获取手段
将所有业务数据汇总处理,构成数据仓库(DW)
- 全部事实的记录;
- 部分维度与数据的整理(数据集市-DM);
数据库 vs 仓库
- 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
- 数据库针对应用(OLTP),仓库针对分析*%(OLAP)
- 数据库组织规范,仓库可能冗余,相对变化大,数据量大
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b5ghVIXr-1667204261210)(attachment:image-3.png)]
联机事务处理OLTP(on-line transaction processing)OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
联机分析处理OLAP(On-Line Analytical Processing)OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
监测与抓取
- 直接解析网页、接口、文件
- python常用工具:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AgJHspau-1667204261212)(attachment:image-4.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tz7WM0Zp-1667204261213)(attachment:image-5.png)]
填写、埋点、日志
- 用户填写信息
- app或网页埋点(特定流程的信息记录点)
- 操作日志
计算
- 通过已有数据计算生成衍生数据,如一些指标