2021年度
文章平均质量分 79
该公司以视频播放及新闻报道为主要业务,大部分是对于离线数据的T+1用户访问信息做处理和展示实时的用户播放浏览相关指标
KeinoJust
敷衍别人就是敷衍自己,如果对自己的输出尚且不认真,那么是没有人愿意停下脚步去欣赏的,你若盛开,蝴蝶自来~
展开
-
记:单表分区上限任务报错解决方案
单表分区上限任务报错1、分区数为什么会多?2、分区数太多会造成什么影响?3、如何从业务方面解决小文件数?4、代码实现1、分区数为什么会多?如果一张表,分区数较多,有几个原因:1)是这张表的数据量较大,如果不分区就会全表查询,导致运行时间缓慢,所以需要将查询的字段设置为分区关键字,比如天、终端类型、小时等等2)业务需求,一张表使用场景很多,业务使用会按照不同的场景来限制表的查询使用,所以分区字段需要很多,甚至有三级分区字段。2、分区数太多会造成什么影响?如果表的数据量很大,那么分区数多影响范围会小原创 2021-07-22 10:49:45 · 166 阅读 · 0 评论 -
数仓建设之IP库的匹配
数仓建设之IP库的匹配一、业务前提二、解决过程01)增加运行资源02)通过增加切分块大小,减少实例数03)明细表和ip库通过join方式04)mapjoin内存方式05)将IP库展开,进行等式join①将IP库信息的每一条数据进行展开如下②展开后,每个IP地址都对应一条国家省份城市信息,这样就可以避免范围匹配③使用join等式连接06)IP库作为资源三、集思广益一、业务前提 介绍:在数据仓库建设中,用到IP库匹配的场景不在少数,比如原创 2021-07-17 22:13:03 · 914 阅读 · 0 评论 -
Blink之rds维度表的使用
blink中的维度表一、组件介绍二、维度表三、blink可用维度表的类型01)交互式分析hologres02)表格存储tableStore(OTS)03)事务数据库RDS04)数据库Hbase05)批处理计算MaxCompute06)数据库Redis07)查询分析ElasticSearch08)Phoenix509)分析型数据库ADB10)数据库Oracle四、Rds维度表的使用01)blink创建源数据03)在对应数据库中创建rds表02)blink中创建维度表温馨提示01)一对一匹配02)一对多匹配03原创 2021-07-17 20:40:36 · 597 阅读 · 0 评论