数据分析
志起计算机编程
博主是一名毕业于中山大学软件工程专业,从事软件行业多年的IT工作者,热爱技术与分享,擅长java和大数据技术。平时喜欢羽毛球、游戏、动漫、剧本杀等。
展开
-
基于Kylin的数据统计分析平台架构设计与实现
前言此项目是我在TP-LINK公司云平台部门做的一个项目,总体包括云上数据自动化统计流程的设计和组件的开发。目的是为了对云平台上的设备和用户数据做多维度的统计和分析,以及便于观察设备数据的历史趋势,让业务部门更好地做业务决策。整体的架构与数据流向如下图所示,采用Hive做数据仓库,使用Spark实现一个ETL组件,完成数据的抽取、转换和加载,引入kylin做数据预计算,另外开发报表模块和数据可视化系统,对接kylin获取统计数据。每天Hive的新增数据量20多个G,kylin预计算之后的数据压缩比为原创 2023-10-05 18:00:07 · 4659 阅读 · 3 评论 -
2022-01-13shopee金融大数据产品面试经验
首先是自我介绍和项目介绍。1、hdfs通过命令put一个文件的流程服务端接受到写数据请求后,发送写数据请求到namenode生成元数据并写入,然后服务端根据元数据往datanode写具体的数据块。然后被问如果写datanode失败数据不一致怎么解决,这里回答采用两阶段提交的方式去写元数据和实际数据,然后被怼那这样客户端崩了还是会存在问题。那我就说用zookeeper存储最后的数据,反正是key value的形式,然后被怼zookeeper同步效率很低。2、讲述了一个项目,选择了数据统计分析可原创 2022-01-13 22:38:20 · 826 阅读 · 0 评论