2020年05月_BigMoM1573

09月 08月 07月 06月 05月 04月 03月 01月

原创 Spark面试汇总

文章目录1、Spark有几种部署方式？（重点）2、Spark提交作业参数（重点）3、简述Spark on yarn的作业提交流程（重点）4、请列举Spark的transformation算子（不少于5个）（重点）5、请列举Spark的action算子（不少于5个）（重点）6、简述Spark的两种核心Shuffle（重点）7、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?（重点）8、Repartition和Coalesce关系与区别（重点）9、Spark中cache默认缓存

2020-05-25 20:43:41 581

原创千亿级数仓_项目总结

文章目录项目流程技术选型数据存储数据同步计算模型结果存储kylin加速查询项目流程1、原始数据在mysql存储2、使用kettle将数据在mysql同步到数据仓库（hive）,同步分为全量同步+增量同步=拉链表（目标：既能够保存历史的数据，又不会有数据冗余）3、数据存储到Hive,Hive内部结构：ODS: 存储在数据源同步过来的数据DW：对ODS存储的数据进行过滤、填充，预计算，以及数据的拉宽。（拉宽：就是将业务上需要的字段，但是字段不在一个表中，使用拉宽（join）将这些字段

2020-05-25 17:55:51 408

原创 kylin_大数据数仓项目-点击流分析

文章目录用户行为日志1 日志数据格式2 数据仓库-ETL处理点击流概念点击流模型pageviews点击流模型visit3 数据入库1．创建ODS层数据表1.1．原始日志数据表1.2．点击流模型1.3．点击流visit模型表用户行为日志1 日志数据格式日志数据内容样例f5dd685d-6b83-4e7d-8c37-df8797812075 222.68.172.190 - - 2018-11-01 14:34:57 "GET /images/my.jpg HTTP/1.1" 200 19939

2020-05-23 00:22:15 495

原创 kylin离线数仓开发

文章目录基于Kylin开发Ads层项目需求介绍业务开发全国、无商品分类维度的交易信息全国、一级商品分类维度交易信息基于Kylin开发Ads层项目需求介绍因为业务需要，公司运营部门，希望随时能够自己编写SQL语句，快速获取到不同维度数据的指标，故基于Kylin OLAP分析平台，搭建快速OLAP分析平台。业务开发开发步骤：1、创建 itcast_shop 项目2、导入dw层宽表数据3、创建数据模型4、创建Cube立方体5、构建立方体6、执行查询具体操作步骤：指定model名称：

2020-05-22 23:55:50 465

原创 Kylin的Cube优化

文章目录Cuboid剪枝优化检查Cuboid数量Cuboid剪枝优化为什么要进行Cuboid剪枝优化将以减少Cuboid数量为目的的Cuboid优化统称为Cuboid剪枝。在没有采取任何优化措施的情况下，Kylin会对每一种维度的组合进行预计算，每种维度的组合的预计算结果被称为Cuboid。如果有4个维度，可能最终会有2^4 =16个Cuboid需要计算。但在实际开发中，用户的维度数量一般远远大于4个。如果有10个维度，那么没有经过任何优化的Cube就会存在2^10 =1024个Cuboid如

2020-05-22 23:44:56 172

原创使用JDBC连接操作Kylin

使用JDBC链接kylin直接使用。不需要关注kylin中model的名称cube的名称，以及两者之间的关系需求通过JDBC方式，查询按照日期、区域、产品维度统计订单总额/总数量结果开发步骤导入驱动依赖<dependencies>  <dependency> <groupId>org.apache.kylin</groupId> <artifactId&gt.

2020-05-19 22:37:42 450

原创 kylin的Cube碎片管理

文章目录Cube碎片管理增量构建的问题管理Cube碎片手动触发合并Segment删除Segment自动合并1、Auto Merge Thresholds2、配置自动合并自动删除SegmentCube碎片管理增量构建的问题日积月累，增量构建的Cube中的Segment越来越多，该Cube的查询性能也会越来越慢，因为需要在单点的查询引擎中完成越来越多的运行时聚合。为了保持查询性能：需要定期地将某些Segment合并在一起或者让Cube根据Segment保留策略自动地淘汰那些不会再被查询到的陈旧Seg

2020-05-19 22:13:33 192

原创 Kylin增量构建

文章目录应用场景理解Cube、Cuboid与Segment的关系全量构建与增量构建全量构建增量构建全量构建和增量构建的对比增量构建Cube过程增量Cube的创建应用场景Kylin在每次Cube的构建都会从Hive中批量读取数据，而对于大多数业务场景来说，Hive中的数据处于不断增长的状态。为了支持Cube中的数据能够不断地得到更新，且无需重复地为已经处理过的历史数据构建Cube，因此对于 Cube引入了增量构建的功能理解Cube、Cuboid与Segment的关系Kylin将Cube划分为多个Seg

2020-05-18 00:20:13 696 1

原创 Kylin的工作原理

文章目录维度和度量Cube和Cuboid工作原理技术架构Apache Kylin的工作原理本质上是 MOLAP（多维立方体分析）。维度和度量维度就是观察数据的角度，例如：电商的销售数据，可以从时间的维度来观察，也可以细化从时间和地区的维度来观察统计时，可以把维度值相同的记录聚合在一起，然后应用聚合函数做累加、平均、去重计数等聚合计算度量就是被聚合的统计值，也是聚合运算的结果。Cube和Cuboid一个数据表或数据模型上的字段就它们要么是维度，要么是度量（可以被聚合）

2020-05-17 23:53:33 177

原创 Kylin入门实操

文章目录按照订单渠道名称统计订单总额/总数量按照日期、区域、产品维度统计订单总额/总数量按照订单渠道名称统计订单总额/总数量1、创建Model指定关联表、关联条件2、创建Cube3、执行构建、等待构建完成4、执行SQL查询，获取结果selectt2.channelid,t2.channelname,sum(t1.price) as total_money,sum(t1.amount) as total_amountfrom dw_sales t1

2020-05-17 23:46:07 190

原创 Kylin入门案例

文章目录测试数据表结构介绍导入测试数据按照日期统计订单总额/总数量（Hive方式）按照日期统计订单总额/总数量（Kylin方式）测试数据表结构介绍导入测试数据为了方便后续学习Kylin的使用，需要准备一些测试表、测试数据。1.Hive中创建表2.将数据从本地文件导入到Hive操作步骤1、使用 beeline 连接Hive!connect jdbc:hive2://node1:100002、创建并切换到 itcast_dw 数据库create database itcast_kylin

2020-05-17 23:40:25 215

原创 Kylin安装工作

文章目录Kylin 大数据OLAP引擎Kylin简介Kylin的诞生背景Kylin的应用场景为什么要使用KylinKylin的总体架构Kylin安装依赖环境集群规划安装Apache Hbase 1.1.1安装kylin-2.6.3-bin-hbase1xKylin 大数据OLAP引擎Kylin简介Kylin的诞生背景Kylin-中国团队研发的，是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目Hive的性能比较慢，支持SQL灵活查询，特别慢HBase的性能快，原生

2020-05-17 22:49:42 162

原创用户订单指标业务开发

文章目录3.1 需求分析3.2 创建dw层表3.3 订单宽表ETL处理1、加载用户维度数据2、导入订单数据3、时间近30天、90天、180天、订单上午、下午时间拉宽4、与地址表合并加入收货地址信息3.4 指标开发1 指标开发一2 指标开发二3 指标开发三4 指标开发四5 指标开发五6 指标开发六7 创建ads层表、加载数据3.5 退货表指标统计ads层开发常见错误3.1 需求分析电商平台往往需要根据用户的购买数据来分析用户的行为，此处。我们基于用户的订单情况进行一些统计分析，用于将来的用户行为分析。根

2020-05-17 16:40:50 1286

原创订单分析地域、分类维度分析业务开发

123

2020-05-17 15:32:26 1522

原创订单分析时间维度分析业务开发

文章目录1.1 需求分析1.2 创建ads层数据表准备日期数据 drop table if exists `itcast_dw`.`dim_date`; CREATE TABLE `itcast_dw`.`dim_date`( `date_key` string, `date_value` string, `day_in_year` string, `day_in_month` string, `is_first_day_in_month` string, `is

2020-05-17 15:19:44 1351

原创千亿级数仓>总体需求

需求1• 统计2019年期间每个季度的销售订单笔数、订单总额• 统计2019年期间每个月的销售订单笔数、订单总额• 统计2019年期间每周一到周日的销售订单笔数、订单总额• 统计2019年期间国家法定节假日、休息日、工作日的订单笔数、订单总额需求2订单分析地域、分类维度分析业务开发集团总公司分为很多的分公司（销售事业部）分公司唐山市分公司邯郸市分公司邢台市分公司保定市分公司承德市分公司沧州市分公司廊坊市分公司衡水市分公司为了公司的经营需要，公司需要定期检查各个分公司的经

2020-05-10 23:42:39 180

原创千亿级数仓>商品维度数据装载

文章目录5 数仓项目 - 商品维度数据装载5.1 dw层建表5.2 具体步骤1全量导入2增量导入3 测试5 数仓项目 - 商品维度数据装载使用拉链表解决商品SCD问题5.1 dw层建表-- dw层建表DROP TABLE IF EXISTS `itcast_dw`.`dim_goods`;CREATE TABLE `itcast_dw`.`dim_goods`( goodsId bigint, goodsSn string, productNo string, goodsName

2020-05-10 23:31:39 303

原创千亿级数仓>缓慢变化维

文章目录4 缓慢变化维4.1 什么是缓慢变化维（SCD)4.2 SCD问题的几种解决方案数仓项目-拉链表技术介绍商品历史快照案例方案一：快照每一天的数据到数仓方案一：MySQL到Hive数仓代码实现方案二：使用拉链表保存历史快照方案二：拉链表存储历史快照代码实现查询拉链表4 缓慢变化维4.1 什么是缓慢变化维（SCD)1、缓慢变化维简介缓慢变化维，简称SCD（Slowly Changing Dimensions）一些维度表的数据不是静态的，而是会随着时间而缓慢地变化（这里的缓慢是相对事实表而言，

2020-05-10 23:23:41 1013

原创千亿级数仓>项目环境初始化

文章目录3 项目环境初始化3.1 Hive分层说明3.2 创建ods层数据表3.3 ods层全量数据抽取3.4 ods层增量数据抽取3 项目环境初始化3.1 Hive分层说明分库存放ods层dw层ads层命名规则ods层表与原始数据库表名称相同dw层表ofact_前缀表示事实表odim_前缀表示维度表创建分层数据库：#hive>create database itcast_ods;create database itcast_dw;create da

2020-05-10 22:54:34 260

原创千亿级数仓>数据仓库开发

文章目录数据仓库开发1. 业务系统表结构介绍订单表itcast_orders订单明细表 itcast_order_goods商品信息表 itcast_goods店铺表 itcast_shops商品分类表 itcast_goods_cats组织结构表 itcast_org订单退货表 itcast_order_refunds用户表 itcast_users用户收货地址表 itcast_user_address支付方式表 itcast_payments2、 DBeaver数据仓库开发1. 业务系统表结构介绍

2020-05-10 22:36:56 887

原创千亿级数仓>数据仓库维度模型设计

文章目录数据仓库维度模型设计1 、维度建模基本概念1.1．事实表1.2．维度表2．维度建模三种模式2.1．星型模型2.2．雪花模式2.3．星座模式数据仓库分层架构1 为什么要分层2 数仓分层思想3 阿里巴巴数据仓库分层架构数据仓库维度模型设计1 、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求

2020-05-10 22:31:20 586

原创千亿级数仓>项目总体介绍（阶段一）

文章目录总体介绍电商行业分析电商业务系统简介网站前台运营商后台商家管理后台千亿级数仓项目简介业务流程大数据离线数仓项目架构项目技术简介项目环境介绍项目ER图项目需求总体介绍了解大数据离线数仓架构了解项目部署环境（数据规模和集群规模）了解项目ER图了解项目需求阶段一了解行业背景、了解项目背景，项目架构介绍、技术选型，项目环境（数据/硬件）介绍，项目ER图、项目需求介绍。基于项目需求实现查询功能（写SQL）或整理出查询流程阶段二学习、掌握kettle的使用、使用kettle将项目需

2020-05-10 21:48:13 821

原创 Kettle>Linux部署

文章目录Linux 安装kettlePan——转换执行引擎Kitchen——作业执行引擎Linux 安装kettle1上传并解压unzip pdi-ce-8.2.0.0-342.zip2、在命令行执行./pan.sh -version./kitchen.sh -version#/export/servers/data-integration中pan.sh 执行转换的任务，ki...

2020-05-03 23:45:34 744

原创 Kettle>作业和参数

文章目录Job（作业）Job Item（作业项）Job Hop（作业跳）参数参数的使用表输入参数传递 - 转换命名参数Job（作业）大多数ETL项目都需要完成各种各样的操作，例如：如何传送文件验证数据库表是否存在，等等而这些操作都是按照一定顺序完成，Kettle中的作业可以串行执行转换来处理这些操作。Job Item（作业项）作业项是作业的基本构成部分。如同转换的组件，作业项也可...

2020-05-03 23:30:53 1193 1

原创 Kettle>Javascript脚本组件

文章目录Kettle Javascript脚本组件Test21 JS脚本编写代码过程Kettle Javascript脚本组件Kettle中可以通过脚本完成一些复杂的操作javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作JS中有很多内置函数，可以在编写JS代码时查看存在两种不同的模式不兼容模式和兼容模式不兼容模式：是默认的，也是推荐的兼容模...

2020-05-03 23:19:54 6344

原创 kettle>Kettle流程控件

文章目录Kettle流程控件Test17 switchTest18 过滤Kettele连接控件test19 连接控件-笛卡尔积test20 记录集连接Kettle流程控件流程主要用来控制数据流程和数据流向switch/case组件让数据流从一路到多路。Test17 switch实现步骤：1、拖入 JSON输入组件，switch/case组件，三个Excel输出组件...

2020-05-03 22:52:29 828

原创 Kettle>Kettle转换组件

文章目录Test14 值映射json-excelTest15 增加列json-excelTest16选择西段json-excel转换是ETL的T，T就是Transform清洗、转换ETL三个部分中，T花费时间最长,是“一般情况下这部分工作量是整个ETL的2/3Test14 值映射json-excel实现步骤：1、拖入一个 JSON输入组件、一个值映射转换组件、一个Exc...

2020-05-03 22:31:41 665

原创 Kettle>Kettle整合Hive

文章目录启动hive服务初始化数据kettle与Hive整合Test11 [hive- –excel]Test12 [excel-hive]Test13 SQL脚本（Hive）启动hive服务#启动 hiveserver2hive --service hiveserver2 &#启动 metastorehive --service metastore &初...

2020-05-02 01:08:11 918

原创 Kettle> Kettle整合Hadoop

文章目录Kettle整合大数据平台Kettle整合Hadoopkettle与hahoop环境整合Hadoop file input组件Hadoop file output组件Kettle整合大数据平台Kettle整合Hadoop1、查看hadoop的文件系统通过浏览器访问 http://node1:50070通过终端访问hadoop fs -ls / # 查看文件2、在hado...

2020-05-02 00:26:32 1490

原创 Kettle>实操笔记

文章目录Test1 [csv-excel]Test2 [json-excel]Test3 [mysql -excel]Test4 [生成数据-excel]Test5 [mysql –文本]Test6 [json –文本]Test7 [json –mysql]Test8 [mysql 删除数据]Test1 [csv-excel]安住Shift键就可以关联csv文件输入Exc...

2020-05-01 23:17:36 214

原创 Kettle>安装配置

文章目录Kettle安装Kettle入门案例Kettle数据流结构图Kettle安装环境要求：安装、配置好JDK1、下载Kettle2、解压Kettle3、双击spoon.bat 启动spoonKettle入门案例需求：把数据从CSV文件（ketttle测试数据\用户数据源\user.csv）抽取到Excel文件数据源：idnameagegender...

2020-05-01 22:41:48 434