自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(180)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021.3.21 再见了痒痒鼠。

再见了 痒痒鼠

2020-07-10 21:38:38 305

原创 2021.5.20 sparksql的Dataframe的api(更新中)

dataframe的api使用

2021-05-21 00:10:39 31

原创 2021.5.16数仓之用户画像表模型设计

第三个业务:用户画像 - 统计当天7日活跃用户业务分析:要统计7日活跃用户情况需要找到用户基本信息 & 用户每日登陆情况用户基本信息来源:1.支付宝注册用户2.微信注册用户3.qq注册用户4.App注册用户 - 使用app注册点歌充值消费这4类注册信息在ycak业务库,对应的4类注册用户用户每日登陆情况:...

2021-05-16 21:57:14 58

原创 2021.5.12 一些概念的梳理和方法论

维度表:缓慢变化维非缓慢变化维事实表:事务型事实表周期快照型事实表累计快照型事实表Bitmap用户分群在贝壳DMP的实践和应用https://cloud.tencent.com/developer/article/1684659方法论:以上待整理…...

2021-05-12 23:51:01 21

原创 2021.5.9数仓之机器详情ODS EDS DM分层设计

第二个业务:机器详细信息统计需求目前要根据两个业务系统中的数据统计机器基础详细信息。这两个业务系统对应的关系型数据库分别是“ycak”“ycbk”。“ycak”库中存在两张机器相关的数据库表如下:“machine_baseinfo”机器基本信息表,机器的系统版本,歌库版本,UI版本,最近登录时间相关。“machine_local_info”机器位置信息日全量表,机器所在的省市县及详细地址,运行时间和销售时间相关。“ycbk”库中存在6张表,分别如下:“machine_admin_map”机器

2021-05-09 22:32:04 109

原创 2021.5.9数仓之Superset BI可视化工具使用及原理

Superset基于Linux的安装1.安装superSet之前安装基础依赖yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel2.官网下载Anconda ,选在linux版本,并安装下载官网地址:https://www.anaconda.com/products/individual#macos3.将下载好的an

2021-05-09 20:55:22 118 1

原创 2021.5.7数仓之Azkaban任务流调度使用及原理

使用Azkaban配置任务流这里使用Azkaban来配置任务流进行任务调度。集群中提交任务,需要修改项目中的application.conf文件配置项:local.run=“false”,并打包。首先保证在Hive中对应的表都已经创建好。然后在安装azkaban的mynode5节点”/software/musicproject/”路径下准备如下脚本:清洗客户端日志脚本 1produce_clientlog.sh#!/bin/bashcurrentDate=`date -d today +"%Y

2021-05-07 20:38:13 97

原创 2021.5.6Azkaban的安装

安装部署Azkaban大数据业务处理场景中,经常有这样的分析场景:A任务:将收集的数据通过一系列的规则进行清洗,然后存入Hive 表a中。B任务:将Hive中已存在的表b和表c进行关联得到表d。C任务:将A任务中得到的表a与B任务中得到的表d进行关联得到分析的结果表e。D任务:最后将Hive中得到的表e 通过sqoop导入到关系型数据库MySQL中供web端查询使用。显然,以上任务C依赖于任务A与任务B的结果,任务D依赖于任务C的结果。我们一般的做法可以打开两个终端分别执行任务A与任务B,当任务

2021-05-06 23:42:49 59

原创 2021.5.4数仓之歌手影响力指数分析

将ODS层的表TO_SONG_INFO_D清洗到EDS层TW_SONG_BASEINFO_D,可以使用HQL或者sparksql去完成,会用到定义UDF函数,或者一些聚合的使用UDAF函数,还有UDTF函数,写一个类extends UDF实现它的方法,现在使用的是sparkSQL,里面也有UDF和UDAF函数,但是没有UDTF函数,有一个算子叫做flatMap就是一对多的。同样的,SQL里面还有一个explode函数,完全可以去实现一对多。这里主要使用的是sparkSQL去清洗的,也使用到了sparkSQ

2021-05-04 21:37:06 35

原创 2021.5.3数仓之歌曲影响力指数分析

问题:sqoop可以将mysql的数据直接导入的hive的一张表中,那么为什么这里要导入到hdfs的路径呢?而且hive的表也不是分区表。原因:我们要导入的外部表,如果直接使用sqoop的方法会有什么问题?我们对应的这个模型文件里面,可以看到song这张表的字段,有一个source_id和name,如果要是真的按照sqoop直接将MySQL的表导入到hive的一张表里面,它能不能按照建表的字段去设置?一定是不行的。它会直接将MySQL的字段导入到hive里面,生成一张表,表名是指定的,但字段名就和My

2021-05-03 22:03:58 43

原创 2021.4.29项目架构及数仓分层、主题设计

==== 业务需求: 统计歌曲热度、歌手热度 =====用户可以登录机器进行点播歌曲,根据用户过去每日在机器上的点播歌曲统计出最近1日、7日、30日歌曲热度及歌手热度需要统计的指标:1日-7日-30日 歌曲热度1日-7日-30日 歌手热度===== 需求分析 =====根据 “微信指数”来统计 歌曲、歌手热度。根据微信指数统计热度需要统计歌曲的以下指标:1日歌曲的点唱量1日歌曲的点赞量1日歌曲的点唱用户数1日歌曲的点唱订单数7日歌曲的点唱量7日歌曲的点赞量7日歌曲的最高点唱量7

2021-04-29 20:54:45 58

原创 2021.4.26数据仓库之数据仓库分层设计与命名规范

复习:上节课从维度建模开始说的,维度建模是源自于数据集市,数据集市的概念是由拉尔夫金博尔提出来的,维度建模主要应用的领域是OLAP的领域,就是数据分析的场景,维度建模里面只有事实表和维度表,事实表就是现实世界中的操作型事件就放在事实表里面,事实表是由维度和度量来组成的,维度就是看数据的角度,他和主题的区别就主题是一个更大的角度,维度就是主题底下的某一些小的角度去观察度量,事实表中的每一个维度,都是会有一个维度表与它一一对应,就像主外键关联,可以在事实表里关联到更多的维度属性来对度量进行统计,那维度表更像是

2021-04-26 22:03:41 211 2

原创 2021.4.24数据仓库之维度建模与数据仓库分析模型

课前回顾:数据库与ER建模,数据库指的是关系型数据库,数据库里面这些表符合三范式,这三范式分别是什么自己回忆一下,后面又提到ER实体关系模型建模,我们提到了给你一个业务场景,需要建表的时候要抽离出来实体、属性、关系,画出ER实体关系模型图,实体用方框表示,属性用椭圆表示,关系用菱形来表示,更习惯的是把ER实体关系模型图转成IDEF1X表的格式看起来更舒服,后面又提到了为什么要构建数据仓库,数据仓库说了几点关系型数据库解决不了的问题,主要大致分为两点,1点关系型数据库里存的数据,都是面向OLTP的操作,联机

2021-04-24 22:28:16 91

原创 2021.4.23数据仓库之数据库范式与ER实体关系模型建模

基于spark的综合数仓平台的项目——音乐数据中心平台项目架构 使用到的技术 和真实的生产环境使用的技术相同整体项目也是市面上大多数公司常用的结构补充数仓的基础知识:问:现在公司是不是都在用阿里云的技术?答:现在有些公司在用阿里云,有些公司也没在用阿里云。数据库与ER建模数据库DataBase:数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。这里主要指的是Web中的关系型数据库,存储和支撑我们Web平台正常运行的事

2021-04-24 10:27:33 123

原创 2021.2.25数据倾斜问题的讨论

有这样一个RDD1(A,1),(A,2),(A,3),(B,1),(C,1)这样一个RDD2(A,100),(B,90),(C,60)将这两个RDDjoin的时候:(A,(1,100)),(A,(2,100)),(A,(3,100)),(B,(1,90)),(C,(1,60))发生数据倾斜,怎么解决这个场景下的数据倾斜:这个解决方案一定要牢牢记着,只要面试官不low一定会问你可以先把RDD1进行拆分:将导致数据倾斜的key分到一个RDD,数据比较均匀的key分到另外一个RDD把RDD1

2021-02-26 08:27:06 54

原创 准备的一些资料

学习部分已经告一段落了,在准备项目的时候,找了一些资料作为补充。《基于Flink平台的资源感知任务调度策略》由于流式数据具有实时性、突发性、无序性、无限性等特点,传统的先存储后计算的批量计算理念已经不适用于实时流计算的处理,因此如何构造高吞吐、低延时的大数据流式计算系统称为当前亟待解决的问题,然而面对大规模高速无序的数据流,任务负载不均衡导致计算节点可能存在资源过剩或资源不足的问题,从而影响计算集群的吞吐量,资源利用率等性能ApacheFlink是一个由两类节点构成的开源分布式流式计算处理框架。(1

2021-02-22 23:36:34 131

原创 2021.1.30课堂笔记(python中使用正则表达式)

Python正则表达式模块re模块常用方法表达式说明compile()用于编译正则表达式,生成一个正则表达式( Pattern )对象match()查看字符串的开头是否符合匹配模式,如果匹配失败,返回nonesearch()扫描整个字符串并返回第一个成功的匹配findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表sub()替换字符串中的匹配项符号说明示例逐字匹配r

2021-01-30 12:59:42 58

原创 2021.1.28课堂笔记(日期时间函数)

写SQL的时候不可避免的在日志文件中会遇到很多日期时间,这些日期时间的格式多种多样,往往也不如人意,有时也不能简单的提取出准确的时间。再加上会有很多需要用到时间的需求分析,所以日期时间函数掌握的好,可以加快效率。。在SQL语法里提供了很多处理的函数:日期函数返回值函数描述stringfrom_unixtime(bigint unixtime[, string format])将时间戳转换成format格式intunix_timestamp()获取本地时区下的时间戳

2021-01-28 19:59:14 171

原创 2021.1.26课堂笔记(对于hive中的表,提取特征做需求分析)

接1.12日的博客:create external table locale(locale_id int,locale string)row format delimitedfields terminated by '\t'location '/user/event/data/locale';create external table time_zone(time_zone_id int,time_zone string)row format delimitedfields

2021-01-26 00:42:13 85

原创 2021.1.24

发现有问题评论区留言~~

2021-01-24 12:40:29 1244 11

原创 2021.1.23基于Spark MLlib训练回归算法模型

上节课讲的重点是 : 梯度下降法目的:优化损失函数调整w参数,让误差达到最小,可以称,梯度下降法是损失函数的优化函数让w尽快的找到一个最合适的,以至于让我们的误差达到最小。梯度下降法是怎么让我们尽快的找到一个最合适的w的呢?会通过导数,来决定w参数调整的 方向,使用α学习率以及导数的乘积,作为调整幅度,关于导数起了两部分作用一:指挥w参数的调整方向二:参与w的调整,因为每次w调整多大,是学习率乘以导数,为什么来使用这样一个公式调整w参数?为什么在调整w参数的时候让导数也参与进来?为什么

2021-01-23 15:00:52 111 1

原创 2021.1.21线性回归算法的原理及参数优化方案

只需要知道用什么样的算法能够解决什么样的需求,不同的算法怎么去调参、调优出去面试的时候可能会问一些公式的推导,经常问的都会去推导复习:核心:总结了机器学习的套路1.随机产生w参数2.把w参数与样本数据带入到误差函数中(最小二重法,损失函数,目标函数,误差函数都是这同一个公式)求解误差值3.误差值与用户指定的误差阈值比较,4.如果大于用户指定的误差阈值,继续调整w参数,(2,3,4)5.如果误差小于用户指定的误差阈值,那么此时的w参数就是最佳的w参数问题:怎么调整w参数?比如现在w=1

2021-01-21 17:03:36 234

原创 2021.1.20机器学习介绍、原理及应用场景

之前学习的技术主要解决了两类问题:1.海量数据的存储2.海量数据的计算都是基于历史数据进行总结统计,基于统计出来的指标对于公司的决策做出一定的变化,这个过程叫做BI 商业智能有总结就得有展望,对未来做预测基于之前学的技术是无法做展望的,之前学习的技术只能对过去做总结机器学习:展望未来如何基于历史数据去展望预测未来!机器学习的场景:语音交互软件:Siri,Cortana,Now (预测)Google利用大数据+机器学习预测H1N1在美国某小镇爆发的可能(预测)2016年8月,IBM 智

2021-01-20 20:09:38 183

原创 2021.1.19课堂测试3

操作技能试卷注意:考试结束试卷必须交回,不交回试卷者成绩无效一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示.

2021-01-20 11:39:05 143

原创 2021.1.16课堂测试2

操作技能试卷注意:考试结束试卷必须交回,不交回试卷者成绩无效一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv是美团外卖平台的部分外卖 SPU(Standard Product Unit , 标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:(表 1 美团外卖 S.

2021-01-16 17:56:09 165

原创 2021.1.14课堂测试1

课堂测试1一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系数,题目所属的知识点 ID,做题的学生 ID,题目 ID 以及作答批改结果。日志的结构如下:四、功能要求1.数据准备(10 分)请在 HDFS.

2021-01-14 16:30:43 147

原创 2021.01.12课堂笔记(将Kafka中的数据写入HBase)

第一步:使用flume将csv文件的内容写入Kafka编写flume的conf文件:userFriends.sources=userFriendsSourceuserFriends.channels=userFriendsChanneluserFriends.sinks=userFriendsSinkuserFriends.sources.userFriendsSource.type=spooldiruserFriends.sources.userFriendsSource.spoolDir=

2021-01-12 20:18:14 109

原创 使用kubeadm快速部署一个K8s集群

kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具。这个工具能通过两条指令完成一个kubernetes集群的部署:# 创建一个 Master 节点$ kubeadm init# 将一个 Node 节点加入到当前集群中$ kubeadm join <Master节点的IP和端口 >1. 安装要求在开始之前,部署Kubernetes集群机器需要满足以下几个条件:一台或多台机器,操作系统 CentOS7.x-86_x64硬件配置:2GB或更多RAM,2

2021-01-07 08:40:07 93

原创 2021.1.5课堂笔记(flink的transform操作)

DataStream的connect和union算子:import nj.zb.source.WaterSensorimport org.apache.flink.streaming.api.scala.{DataStream, SplitStream, StreamExecutionEnvironment}import org.apache.flink.streaming.api.scala._object Transform_Connect { def main(args: Array[S

2021-01-05 15:14:02 55

原创 2021.1.5课堂笔记(flink读取数据source源)

使用flnk读取数据源

2021-01-05 12:13:32 54

原创 2020.12.28课堂笔记(《Scala 入门》学习指导)

《Scala 入门》学习指导一、Scala 简介Scala 是一种基于 JVM 的多范式编程语言,这里的范式可以理解为一种编程风格,比如面向对象编程就是一种范式。常见范式包括:面向过程、面向对象、泛型以及函数式编程。1.1 Scala 的特点1.1.1 静态类型Scala 的变量声明后不允许改变类型,换句话说所有变量和表达式的类型在编译时就已经完全确定。这一点和 Java 是一样的,反过来说像 Python 则是动态类型语言。静态类型语言对 IDE 比较友好 ,IDE 可以做到很好的代码感知能力

2020-12-28 11:45:35 59

原创 2020.12.24课堂笔记(Hadoop阶段考试参考答案)

一、不定项选择题(1-12题每题2分,13题3分,共27分)下面那个程序负责HDFS数据存储(C)?A NameNodeB JobtrackerC DatanodeD secondaryNameNodeE tasktracker关于SecondaryNameNode哪项是正确的(C)?A 它是NameNode的热备。B 它对内存没有要求。C 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。D SecondaryNameNode应与NameNode部署到

2020-12-24 15:35:47 229

原创 2020.12.23课堂笔记(Spark Streaming中的transform)

Spark Streaming中的transform算子作用:业务需求需要更改数据结构时可以使用transform完成转化工作示例:从Kafka中读取数据,经过transform操作转换之后,打印添加依赖:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</ver

2020-12-24 15:12:51 42

原创 2020.12.23课堂笔记(Spark Streaming中的Window操作)

窗口时间 windowDuration​:当前窗口要统计多长时间的数据,是批量时间的整数倍滑动时间 slideDuration​:要多长时间更新一次结果,是批量时间的整数倍批量处理时间 batchDuration​:多长时间创建一个批次,与实际业务无关,只与数据量有关,数据量大则可以设置短一些,数据量小则设置长一些,但必须小于其他两个时间。

2020-12-23 20:04:12 57

原创 2020.12.20课堂笔记(《HBase进阶》学习指导)

《HBase 进阶》学习指导一、Phoenix 集成 HBase详见 2020.9.25课堂笔记(phoenix:We put the SQL back in NoSQL)二、HBase 与 Hive 的集成该部分需要理解 HBase 和 Hive 的不同点,以及 Hive 与 HBase 集成的适用场景。2.1 HBase 与 Hive 的对比1.Hive(1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个映射关系,以方便使用 HQL 去管理

2020-12-21 20:11:11 54

原创 2020.12.18课堂笔记(SparkStreamingDemo)

添加maven依赖:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version></dependency><dependency> <groupId>org.apache.spark</group

2020-12-19 16:30:00 54 1

原创 2020.12.17课堂笔记(《HBase 基础》学习指导)

《HBase 基础》学习指导一、HBase 安装参考:《HBase 分布式环境搭建》要求会搭建分布式 HBase 环境。二、HBase 架构原理1.1 HBase 架构HBase 架构是比较复杂的,也是比较难理解的部分。HBase 也是 Master/slaves 架构,从前面安装环境应该能看出,HBase 分布式环境安装成功后,是有一个 HMaster,多个 HResgionServer 进程。HBase 架构如图所示:从上图中能看出 HBase 是由 Client、ZooKeeper、H

2020-12-17 14:56:04 116

原创 2020.12.17课堂笔记(HBase分布式环境搭建)

HBase分布式环境搭建一、HBase分布式环境安装1.1 Zookeeper正常部署启动首先保证Zookeeper集群的正常部署,并启动:[root@hadoop102 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop103 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop104 zookeeper]$ $ZK_HOME/bin/zkServer.sh start1.2

2020-12-17 13:59:45 72

原创 2020.12.15课堂笔记(Kafka Streams的代码实现)

package nj.zb.kb09.kafka;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.KafkaStreams;import org.apache.kafka.streams.StreamsBuilder;import org.apache.kafka.streams.StreamsConfig;import org.apache.kafka.streams.Top

2020-12-16 14:10:00 54

原创 2020.9.23课堂笔记(项目实战-电子商务消费行为分析)

11

2020-12-16 09:56:02 100

hadoop-2.6.0-cdh5.14.2.tar

hadoop-2.6.0-cdh5.14.2.tar.gz适用于Linux环境,centos7已测试

2020-09-04

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除