数据仓库
文章平均质量分 63
ghostyusheng
God build us in his image. Now it is the time to make the real AI in our image!
展开
-
logstash s3 写入 %{host} %{message}异常
logstash s3 %{host} %{message} 异常,错误原创 2022-06-06 11:35:52 · 686 阅读 · 1 评论 -
记一次数仓重构的前因后果,以及抉择的反思
概要专有名次解释笔者是某游戏平台领域xx公司的数据负责人,准确来说是刚接到boss需求紧急调配到这个项目组。刚接到需求的我立刻跟各个同事了解业务情况,当我了解到数仓的问题的时候,我裂开了,(本人曾担任过原数仓的负责人),原来的数据源是1个,以hadoop为中心展开,现在到好,变成了三个(oss + hadoop + dataworks)。现数仓设计图这里可以看到,我们从阿里的sls(日志中心)订阅实时流数据,然后经由ETL工具(nifi)处理,分别写入三个数据源(OSS, EMR(hadoop),原创 2021-03-26 21:36:44 · 748 阅读 · 0 评论 -
数仓基本知识
数仓基本知识概要以下描述包含我对整个数仓及其概念的简化提炼。适合新手了解相关概念,快速上手,老鸟请绕过。业界为什么要用“数仓”?说起数仓,业界为什么要开发数仓的技术?我们有mysql数据库,mongo数据库,业界为什么要推出个”数仓”的技术?因为存储,因为查询。存储: mysql在阿里开500G磁盘空间就将近4w块钱一个月,而且已经达到最大值,如果我们要100个T数据(1T=1024G),我们还能用mysql数据库吗?不能,怎么办?” 数仓!“查询: 众所周知mysql在单表处理上亿的数据,可原创 2021-03-26 17:41:49 · 958 阅读 · 0 评论