主题是数据综合体,抽象的。一个分析主题的数据可能横跨多个数据源(多个表)。
1、所谓指标指的是该主题需要计算出哪些数据值,来衡量比较大小、好坏、高低、涨跌情况。
2、所谓维度指的是从哪些角度或者多个角度组合起来去计算指标
知识点04:DataGrip业务数据导入
-
step1:windows创建工程文件夹
要求无中文,无空格环境
把项目资料中的脚本文件添加至工程文件夹中
step2:DataGrip创建Project
step3:关联本地工程文件夹
step4:DataGrip连接MySQL
step5:导入业务数据
学会如何使用DataGrip工具执行sql文件
原因
Hive元数据信息存储在MySQL中。
Hive要求数据库级别的字符集必须是latin1。但是对于具体表中字段的字符集则没做要求。
默认情况下,字段字符集也是latin1,但是latin1不支持中文。
解决
在mysql中,对于记录注释comment信息的几个表字段字符集进行修改。
-
step1:DataGrip打开MySQL console控制台
step2:执行下述sql语句修改字符集
step3:查看验证是否修改成功
step4:删除之前hive中创建的表,重新建表
知识点06:ODS层搭建--数据导入同步的方式
-
方式1:全量同步
-
每天新增一个日期分区,同步并存储当天的全量数据,历史数据定期删除。
-
适用于数据会有新增和更新,但是数据量较少,且历史快照不用保存很久的情况。
-
方式2:全量覆盖
不需要分区,每次同步都是先删后写,直接覆盖。
适用于数据不会有任何新增和变化的情况。
比如地区、时间、性别等维度数据,不会变更或很少会有变更,可以只保留最新值。
方式3:仅新增同步
每天新增一个日期分区,同步并存储当天的新增数据。
比如登录记录表、访问日志表、交易记录表、商品评价表等。
方式4:新增及更新同步
每天新增一个日期分区,同步并存储当天的新增和更新数据。
适用于既有新增又有更新的数据,比如用户表、订单表、商品表等。
首次执行与循环执行
首次建库时,需要对OLTP应用中的表全量数据进行采集,因此所有表都使用全量同步。
历史数据量可能会非常大,