u010823625
让积累成为一种习惯。
展开
-
Spark实时ETL·中国移动充值活动交易额指标统计
Spark实时ETL·中国移动充值活动交易额指标统计1、充值活动交易额指标统计1.1 ODS实时分流1.1.1 需求1.1.2 Canal配置1.1.3 Spark Streaming 实时分流1.2 Stream-Static Join1.2.1 需求1.2.2 Stream-Topic1.2.3 Static维表1.2.4 Spark Streaming 流-维 Join1.3 活动指标统计1.3.1 需求1.3.2 实现1.4 数据大屏指标统计1.4.1 需求1.4.2 实现1、充值活动交易额指标统原创 2020-07-24 15:41:55 · 775 阅读 · 0 评论 -
Hive电商用户画像
Hive电商用户画像1、用户画像1.1 用户消费订单表1.1.1 近30天订单1.1.2 退货和拒收1.1.3 常用收货地址、常用支付方式1.1.4 剩余指标计算1.2 用户营销信息表1.2.1 Spark SQL 计算30天内用户的活跃状态1.2.2 Spark ML 构建用户价值模型1.2.2.1 BFM模型1.2.2.2 K-Means算法1、用户画像1.1 用户消费订单表字段类型描述user_idbigint用户IDfirst_order_timetimes原创 2020-07-23 20:39:10 · 1112 阅读 · 0 评论 -
基于共享单车业务的实时大数据采集计算分析平台
基于共享单车业务的实时大数据采集计算分析平台1、Flume 实时采集1.1 Flume配置1.2 自定义拦截器2、Spark Streaming + Kafka 实时计算3、ELK 数据展示1、Flume 实时采集1.1 Flume配置a1.sources=r1a1.channels=c1 c2# configure sourcea1.sources.r1.type = TAILDIRa1.sources.r1.positionFile = /opt/module/flume/test/l原创 2020-07-08 21:48:05 · 1420 阅读 · 0 评论 -
Spark电商离线数仓·用户模块指标统计
Spark电商离线数仓·用户模块分析1、Sqoop 数据采集1.1 同步策略1.2 Sqoop脚本2、Hive 数仓分层2.1 ODS层2.2 DWD层2.2.1 维度表(dwd_dim_)2.2.2 事实表(dwd_fact_)3、Spark SQL 数据开发(新增)4、Kylin 即席查询(新增)5、Superset 结果展示(新增)1、Sqoop 数据采集1.1 同步策略全量 select * from 表 where 1 = 1增量 select * from 表 where create原创 2020-07-08 21:45:10 · 1894 阅读 · 0 评论 -
大数据面试·漫谈
大数据面试·漫谈数据仓库、数据湖、数据中台列式存储的好处数据仓库、数据湖、数据中台数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合数据湖:元数据的存储地数据中台:数据共享,连通数据孤岛列式存储的好处支持压缩只读取需要的列,能够获取更好的扫描性能支持向量运算...原创 2020-07-01 16:09:13 · 145 阅读 · 0 评论 -
大数据面试·Spark篇(二)
大数据面试·Spark篇(二)Spark Streaming任务延迟监控及告警1.需求2.自定义StreamingListener3.添加到streamingContext中Spark Streaming任务延迟监控及告警1.需求监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟2.自定义StreamingListenerclass SparkStreamingDelayListener(private val appName:String, private val duration: Int转载 2020-07-01 13:37:09 · 164 阅读 · 0 评论 -
大数据面试·Spark篇(一)
Spark的shuffle算子一、去重二、聚合三、排序四、重分区五、集合或者表操作一、去重def distinct()def distinct(numPartitions: Int)二、聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]def gro转载 2020-07-01 13:22:46 · 535 阅读 · 1 评论 -
大数据面试·Hadoop篇(五)
大数据面试·Hadoop篇(五)2.1 Hive2.1.1 Hive压缩类型推荐2.1.2 Hive分区表和分桶表2.1.3 order by、sort by、distribute by、partition by2.1.3.1 order by2.1.3.2 sort by2.1.3.3 distribute by2.1.3.4 partition by2.1.4 Hive常用函数2.1 Hive2.1.1 Hive压缩类型推荐压缩比、压缩速度、压缩后的文件是否支持HDFS Block的分片注重压原创 2020-07-01 13:10:10 · 188 阅读 · 0 评论 -
大数据面试·Hadoop篇(四)
大数据面试·Hadoop篇(四)1.4 Hadoop集群常用shell命令1.4.1 启动HDFS1.4.2 启动YARN1.4.3 创建文件夹1.4.4 查看HDFS系统根目录1.4.5 上传文件1.4.6 下载文件1.4.7 合并下载1.4.8 复制1.4.9 移动1.4.10 删除1.4.11 从本地剪切文件到HDFS上1.4.12 追加文件1.4.13 查看文件内容1.4.14 查看集群的工作状态1.4 Hadoop集群常用shell命令1.4.1 启动HDFSstart-dfs.sh1.转载 2020-07-01 11:35:53 · 117 阅读 · 0 评论 -
大数据面试·Hadoop篇(三)
大数据面试·Hadoop篇(三)1.3 MapReduce调优1.3.1 数据输入阶段的调优1.3.2 Map阶段的调优1.3.3 Reduce阶段的调优1.3.3.1 合理设置Map和Reduce数量1.3.3.2 设置Map和Reduce共存1.3.4 IO传输阶段的调优1.3.5 MapReduce Shuffle&数据倾斜1.3.5.1 造成数据倾斜的操作1.3.5.2 数据倾斜的解决方案1.3.5.3 Shuffle1.3.6 硬件1.3 MapReduce调优MapReduce一般要原创 2020-07-01 11:34:47 · 164 阅读 · 0 评论 -
大数据面试·Hadoop篇(二)
大数据面试·Hadoop篇(二)1.2 HDFS HA1.2.1 简单说下HDFS HA1.2.2 DataNode宕机1.2.3 NameNode宕机1.2.4 NameNode对元数据的管理1.2.5 HDFS的checkpoint1.2.6 HDFS如何保证HA1.2 HDFS HA1.2.1 简单说下HDFS HADatanode同时配置主备两个Namenode,并同时发送Block报告和心跳到两台Namenode。确保任何时刻只有一个Namenode处于Active状态1.2.2 D原创 2020-07-01 11:34:12 · 132 阅读 · 0 评论 -
大数据面试·Hadoop篇(一)
大数据面试·Hadoop篇1、HDFS1.1 写1.2 读1、HDFS1.1 写ClientNameNodeDataNode1DataNode2DataNode3检查目标文件是否已存在应答成功请求调用请求调用请求调用应答成功应答成功应答成功ClientNameNodeDataNode1DataNode2DataNode31.2 读ClientNameNodeDataNode1请求通信,查询元数据,找到存有文件块的DataNode服务器就近选择一台DataNode服务器ClientNameNodeD原创 2020-07-01 11:33:41 · 151 阅读 · 0 评论 -
2020·记录阿里的一次面试(一)
2020.06.18 新冠期间接到了面试邀请,27.5小时我可以准备点什么?1、第1个小时(第一天上午10:35-11:35)1.1 激动1.2 后悔1.3 平复心情1.4 做出最小化可行性解决方案2、第2-N小时1、第1个小时(第一天上午10:35-11:35)激动、后悔、平复心情、做出最小化可行性解决方案1.1 激动今天是星期四(我更新简历的第4天、我已经投了23家公司了,主方向是推荐算法、数据开发、公司在西湖区、余杭区),但反馈效果都不太好。1.2 后悔没有录音(因为接电话的时候原创 2020-06-19 19:01:53 · 288 阅读 · 0 评论