preview,220614,

主题是数据综合体,抽象的。一个分析主题的数据可能横跨多个数据源(多个表)。

1、所谓指标指的是该主题需要计算出哪些数据值,来衡量比较大小、好坏、高低、涨跌情况。

2、所谓维度指的是从哪些角度或者多个角度组合起来去计算指标

知识点04:DataGrip业务数据导入

  • step1:windows创建工程文件夹

    要求无中文,无空格环境

    把项目资料中的脚本文件添加至工程文件夹中

step2:DataGrip创建Project

step3:关联本地工程文件夹

step4:DataGrip连接MySQL

step5:导入业务数据

学会如何使用DataGrip工具执行sql文件

原因

Hive元数据信息存储在MySQL中。

Hive要求数据库级别的字符集必须是latin1。但是对于具体表中字段的字符集则没做要求。

默认情况下,字段字符集也是latin1,但是latin1不支持中文。

 解决

在mysql中,对于记录注释comment信息的几个表字段字符集进行修改。

  • step1:DataGrip打开MySQL console控制台

step2:执行下述sql语句修改字符集

step3:查看验证是否修改成功

step4:删除之前hive中创建的表,重新建表

知识点06:ODS层搭建--数据导入同步的方式

  • 方式1:全量同步

    • 每天新增一个日期分区,同步并存储当天的全量数据,历史数据定期删除。

    • 适用于数据会有新增和更新,但是数据量较少,且历史快照不用保存很久的情况。

 

方式2:全量覆盖

  • 不需要分区,每次同步都是先删后写,直接覆盖

  • 适用于数据不会有任何新增和变化的情况。

  • 比如地区、时间、性别等维度数据,不会变更或很少会有变更,可以只保留最新值。

方式3:仅新增同步

  • 每天新增一个日期分区,同步并存储当天的新增数据

  • 比如登录记录表、访问日志表、交易记录表、商品评价表等。

 

方式4:新增及更新同步

  • 每天新增一个日期分区,同步并存储当天的新增和更新数据

  • 适用于既有新增又有更新的数据,比如用户表、订单表、商品表等。

 

首次执行与循环执行

  • 首次建库时,需要对OLTP应用中的表全量数据进行采集,因此所有表都使用全量同步。

  • 历史数据量可能会非常大,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值