大数据
文章平均质量分 58
志起计算机编程
博主是一名毕业于中山大学软件工程专业,从事软件行业多年的IT工作者,热爱技术与分享,擅长java和大数据技术。平时喜欢羽毛球、游戏、动漫、剧本杀等。
展开
-
大数据组件Hive性能测试和性能优化
项目介绍这是我在华为做的最后一个项目,当时在华为海思部门。部门主要是给一些国产芯片做服务器的软件性能测试,包括大数据生态软件Hadoop、Hbase、Hive等。测试方法使用业界sql性能测试工具tpc-ds,选择个别SQL做性能分析优化。TPC-DS是与真实场景非常接近的一个测试集,它包含7张事实表,17张纬度表,平均每张表含有18列。用这个数据集能够很好的模拟企业数据查询、报表生成以及数据挖掘等复杂应用。下面是测试的数据集部分表的关系图:测试用例举例:-- 1.符合原创 2022-04-01 20:53:47 · 4070 阅读 · 3 评论 -
基于Kylin的数据统计分析平台架构设计与实现
前言此项目是我在TP-LINK公司云平台部门做的一个项目,总体包括云上数据自动化统计流程的设计和组件的开发。目的是为了对云平台上的设备和用户数据做多维度的统计和分析,以及便于观察设备数据的历史趋势,让业务部门更好地做业务决策。整体的架构与数据流向如下图所示,采用Hive做数据仓库,使用Spark实现一个ETL组件,完成数据的抽取、转换和加载,引入kylin做数据预计算,另外开发报表模块和数据可视化系统,对接kylin获取统计数据。每天Hive的新增数据量20多个G,kylin预计算之后的数据压缩比为原创 2023-10-05 18:00:07 · 4659 阅读 · 3 评论 -
2022-01-13shopee金融大数据产品面试经验
首先是自我介绍和项目介绍。1、hdfs通过命令put一个文件的流程服务端接受到写数据请求后,发送写数据请求到namenode生成元数据并写入,然后服务端根据元数据往datanode写具体的数据块。然后被问如果写datanode失败数据不一致怎么解决,这里回答采用两阶段提交的方式去写元数据和实际数据,然后被怼那这样客户端崩了还是会存在问题。那我就说用zookeeper存储最后的数据,反正是key value的形式,然后被怼zookeeper同步效率很低。2、讲述了一个项目,选择了数据统计分析可原创 2022-01-13 22:38:20 · 826 阅读 · 0 评论 -
2022-01-10 SHEIN大数据java开发岗位
面试该岗位,主要问了以下几个问题:1、MapReduce 的shuffle过程回答:map线程数据首先会复制到一个环形缓冲区,在环形缓冲区中进行分区和排序,当环形缓冲区达到一个阈值时数据会溢写到磁盘,这个过程可能会有conbine操作,最终每个分区的数据生成一个数据已经排序的文件。之后是reduce的shuffle过程,reduce线程将磁盘中每个分区的数据复制到内存缓冲区,进行排序,按照key进行聚合,然后输出数据作为reduce线程的输入数据,经过reduce计算之后生成文件存放到hdfs上。原创 2022-01-10 20:48:48 · 857 阅读 · 0 评论 -
Kylin配置开启Cube Planner
Cube Planner功能通过计算同步Cuboid的构建成本和收益,并结合用户查询的统计数据挑选出更精简、更高效的维度组合,从而减少构建Cube耗费的时间和空间,提高查询效率。配置开启步骤如下:一、开启System Cube首先,在kylin.properties中设置以下参数以开启Metrics功能:kylin.server.query-metrics2-enabled=truekylin.metrics.reporter-query-enabled=truekylin.metr原创 2021-05-31 21:15:56 · 381 阅读 · 0 评论