数仓数据的管理
1.数仓中使用的哪种文件存储格式
常用的包括:textFile,rcFile,ORC,Parquet,一般企业里使用ORC或者Parquet,因为是列式存储,且压缩比非常高,所以相比于textFile,查询速度快,占用硬盘空间少
2.哪张表最费时间,有没有优化
用户行为宽表,数据量过大。数据倾斜的相关优化手段。(hadoop、hive、spark)
3.哪张表数据量最大,是多少
用户行为数据:100g(1亿条)/5 = 2千万 * 2-3倍 动作、曝光、页面故障、启动
业务数据:详情(20-30万条) -》加购-》下单-》支付-》物流
4.用什么工具做权限管理
Ranger或Sentry (用户认证kerberos(张三、李四、王五)=>表级别权限(张三、李四)、字段级别权限(李四))
5.数仓当中数据多久删除一次
1)部分公司永久不删
2)有一年、两年“删除”一次的,这里面说的删除是,先将超时数据压缩下载到单独安装的磁盘上。然后删除集群上数据。 很少有公司不备份数据,直接删除的。