2021年05月_超可爱慕之

原创 2021.5.20 sparksql的Dataframe的api（更新中）

dataframe的api使用

2021-05-21 00:10:39 472

原创 2021.5.16数仓之用户画像表模型设计

第三个业务：用户画像 - 统计当天7日活跃用户业务分析：要统计7日活跃用户情况需要找到用户基本信息 & 用户每日登陆情况用户基本信息来源：1.支付宝注册用户2.微信注册用户3.qq注册用户4.App注册用户 - 使用app注册点歌充值消费这4类注册信息在ycak业务库，对应的4类注册用户用户每日登陆情况：...

2021-05-16 21:57:14 1047

原创 2021.5.12 一些概念的梳理和方法论

维度表：缓慢变化维非缓慢变化维事实表：事务型事实表周期快照型事实表累计快照型事实表Bitmap用户分群在贝壳DMP的实践和应用https://cloud.tencent.com/developer/article/1684659方法论：以上待整理…...

2021-05-12 23:51:01 151

原创 2021.5.9数仓之机器详情ODS EDS DM分层设计

第二个业务：机器详细信息统计需求目前要根据两个业务系统中的数据统计机器基础详细信息。这两个业务系统对应的关系型数据库分别是“ycak”“ycbk”。“ycak”库中存在两张机器相关的数据库表如下：“machine_baseinfo”机器基本信息表，机器的系统版本，歌库版本，UI版本，最近登录时间相关。“machine_local_info”机器位置信息日全量表，机器所在的省市县及详细地址，运行时间和销售时间相关。“ycbk”库中存在6张表，分别如下：“machine_admin_map”机器

2021-05-09 22:32:04 1165

原创 2021.5.9数仓之Superset BI可视化工具使用及原理

Superset基于Linux的安装1.安装superSet之前安装基础依赖yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel2.官网下载Anconda ,选在linux版本，并安装下载官网地址：https://www.anaconda.com/products/individual#macos3.将下载好的an

2021-05-09 20:55:22 798 1

原创 2021.5.7数仓之Azkaban任务流调度使用及原理

使用Azkaban配置任务流这里使用Azkaban来配置任务流进行任务调度。集群中提交任务，需要修改项目中的application.conf文件配置项：local.run=“false”，并打包。首先保证在Hive中对应的表都已经创建好。然后在安装azkaban的mynode5节点”/software/musicproject/”路径下准备如下脚本：清洗客户端日志脚本 1produce_clientlog.sh#!/bin/bashcurrentDate=`date -d today +"%Y

2021-05-07 20:38:13 1112

原创 2021.5.6Azkaban的安装

安装部署Azkaban大数据业务处理场景中，经常有这样的分析场景：A任务：将收集的数据通过一系列的规则进行清洗，然后存入Hive 表a中。B任务：将Hive中已存在的表b和表c进行关联得到表d。C任务：将A任务中得到的表a与B任务中得到的表d进行关联得到分析的结果表e。D任务：最后将Hive中得到的表e 通过sqoop导入到关系型数据库MySQL中供web端查询使用。显然，以上任务C依赖于任务A与任务B的结果，任务D依赖于任务C的结果。我们一般的做法可以打开两个终端分别执行任务A与任务B，当任务

2021-05-06 23:42:49 421

原创 2021.5.4数仓之歌手影响力指数分析

将ODS层的表TO_SONG_INFO_D清洗到EDS层TW_SONG_BASEINFO_D，可以使用HQL或者sparksql去完成，会用到定义UDF函数，或者一些聚合的使用UDAF函数，还有UDTF函数，写一个类extends UDF实现它的方法，现在使用的是sparkSQL，里面也有UDF和UDAF函数，但是没有UDTF函数，有一个算子叫做flatMap就是一对多的。同样的，SQL里面还有一个explode函数，完全可以去实现一对多。这里主要使用的是sparkSQL去清洗的，也使用到了sparkSQ

2021-05-04 21:37:06 205

原创 2021.5.3数仓之歌曲影响力指数分析

问题：sqoop可以将mysql的数据直接导入的hive的一张表中，那么为什么这里要导入到hdfs的路径呢？而且hive的表也不是分区表。原因：我们要导入的外部表，如果直接使用sqoop的方法会有什么问题？我们对应的这个模型文件里面，可以看到song这张表的字段，有一个source_id和name，如果要是真的按照sqoop直接将MySQL的表导入到hive的一张表里面，它能不能按照建表的字段去设置？一定是不行的。它会直接将MySQL的字段导入到hive里面，生成一张表，表名是指定的，但字段名就和My

2021-05-03 22:03:58 211

超可爱慕之