自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SmallScorpion

吾生若有志,则以数据照星辰,明而透之;以技术踏大海,敢而往之;以代码忖余生,积而累之。故,不负韶华。

  • 博客(302)
  • 资源 (4)
  • 收藏
  • 关注

原创 【FLINK】浅谈Flink中对于乱序数据处理保证

浅谈Flink中对于乱序数据处理保证

2022-03-02 16:39:37 1976

原创 【FLINK】浅谈Flink中WaterMark在分布式环境下的传递

我们大多数的工作环境所搭建的都是分布式集群模式,那么从上一篇中我们了解了WaterMark的原理。现在在分布式的并行处理下,两个Task同时处理数据时他们所在Task的WaterMark是不相同的,Flink是如何保证WaterMark正常运行的呢。定义数据流及并行任务的数据流向,这里的延迟我们依然设置成3秒第一次处理数据第二次处理数据Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现。...

2022-03-01 21:42:51 1479

原创 【FLINK】浅谈Flink中WaterMark原理和特点

首先我们需要知道当Flink以Event Time(事件时间) 模式处理数据时。Flink会以处理的数据自身所带的时间戳来对代码中基于时间的算子进行逻辑和计算。WaterMark为单调递增的一个特殊的数据定义一条数据流定义窗口和WaterMark第一条数据第二条数据第三条数据第四条数据第五条数据第六条数据第七条数据第八条数据第九条数据第十条数据第十一条数据第十二条数据第十四条数据通过暴力的画图已经有了一个比较清晰的了解了对于Wat

2022-03-01 18:42:29 1326

原创 【FLINK】浅谈Flink中min()和minBy()的区别

浅谈Flink中min()和minBy()的区别

2022-02-28 20:26:27 767

原创 【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

浅谈Spark数据读取并行度获取及数据分区存储

2022-02-15 15:27:30 1594

原创 【KAFKA】浅谈Kafka数据可靠性保证

浅谈Kafka数据可靠性保证

2022-01-04 20:24:39 1027

原创 【HADOOP】浅谈Yarn的工作机制

浅谈Yarn的工作机制

2021-12-19 15:23:36 938

原创 【HADOOP】浅谈Hadoop中MapReduce工作机制

浅谈Hadoop中MapReduce工作机制

2021-12-15 22:58:23 1562

原创 【HADOOP】浅谈DataNode工作机制

浅谈DataNode工作机制

2021-12-13 20:15:31 1443

原创 【ZOOKEEPER】浅谈Zookeeper工作机制

浅谈Zookeeper工作机制

2021-12-11 23:11:29 854

原创 【HADOOP】浅谈NameNode和SecondaryNameNode的工作机制

浅谈NameNode和SecondaryNameNode的工作机制

2021-12-10 21:19:01 677

原创 【SQL】SQL中简单的行转列题解

SQL行转列

2021-12-09 19:25:14 120

原创 【SCALA】Scala在windows安装及细节处理

第一步:这边下载的是windows 2.11.8版本scala的zip下载链接:https://www.scala-lang.org/download/2.11.8.html注意:如果安装的msi的在cmd提示你"此时不应有 \scala\bin\scala.bat",注意你应该是把scala安装到了有空格的目录,毕竟默认安装目录是Program Files (x86)第二步: 解压后配置环境变量先创建SCALA_HOME的系统变量指定到scala的解压目录在进行系统的环境变量(path)配置

2021-12-09 16:43:08 983

原创 【Linux】CentOS 7 初级命令

修改网络IP:vi /etc/sysconfig/network-scripts/ifcfg-ens查看当前网络IP:ip a给自己系统安装‘tar’命令yum install -y tar防火墙命令systemctl status firewalld -- 当前状态systemctl stop firewalld -- 关闭systemctl start firewalld -- 打开systemctl disable firewalld -- 永久关闭.

2021-12-07 20:20:57 283

原创 一个算法小白对动态规划的自我安慰似的理解

前段时间刷了一阵子leetcode,除了一些比较常见的对数据的处理,最多的就是关于动态规划了,可能是经过这些题目对我的摧残,在看到刷到一道题中下面这个评论,于是我决定对它下手了,如果你也有同样经历,那么我们一起对它下手另外附上网上我看过得最好得一篇文章:https://www.zhihu.com/question/23995189...

2020-12-17 17:45:37 214 2

原创 电商数仓3.0 ADS层会员主题相关需求分析处理

会员信息-- ads-会员-会员信息drop table if exists ads_user_topic;create external table ads_user_topic( `dt` string COMMENT '统计日期', `day_users` string COMMENT '活跃会员数', `day_new_users` string COMMENT '新增会员数', `day_new_payment_users` string COMMENT '新

2020-11-23 17:53:01 397

原创 电商数仓3.0 ADS层设备主题相关需求分析处理

设备活跃数(日、周、月)增加 is_weekend 和 is_monthend 字段的意义在于将日周月三个量的计算频率保持一致,都是每天执行一次,后续如果想求完整的周活只要是 字段为 Y 就行-- 创建表drop table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk

2020-11-17 17:14:29 368

原创 电商数仓3.0 DWS层和DWT层数据处理之每日地区统计

创建DWS每日地区统计表drop table if exists dws_area_stats_daycount;create external table dws_area_stats_daycount( `id` bigint COMMENT '编号', `province_name` string COMMENT '省份名称', `area_code` string COMMENT '地区编码', `iso_code` string COMMENT 'iso编码',

2020-11-09 16:52:38 349

原创 电商数仓3.0 DWS层和DWT层数据处理之每日活动统计

创建DWS每日活动统计表drop table if exists dws_activity_info_daycount;create external table dws_activity_info_daycount( `id` string COMMENT '编号', `activity_name` string COMMENT '活动名称', `activity_type` string COMMENT '活动类型', `start_time` string C

2020-11-09 16:38:28 215

原创 电商数仓3.0 DWS层和DWT层数据处理之每日商品行为

创建DWS每次商品行为表drop table if exists dws_sku_action_daycount;create external table dws_sku_action_daycount ( sku_id string comment 'sku_id', order_count bigint comment '被下单次数', order_num bigint comment '被下单件数', order_amount decimal(16,2)

2020-11-09 16:32:47 666

原创 电商数仓3.0 DWS层和DWT层数据处理之每日会员行为

创建DWS每日会员行为表drop table if exists dws_user_action_daycount;create external table dws_user_action_daycount( user_id string comment '用户 id', login_count bigint comment '登录次数', cart_count bigint comment '加入购物车次数', order_count bigint comme

2020-11-09 16:26:36 257

原创 电商数仓3.0 DWS层和DWT层数据处理之每日设备行为

创建DWS层每日设备行为表每日设备行为,主要按照设备id统计。-- dws层-每日设备行为drop table if exists dws_uv_detail_daycount;create external table dws_uv_detail_daycount( `mid_id` string COMMENT '设备id', `brand` string COMMENT '手机品牌', `model` string COMMENT '

2020-11-06 17:35:53 292

原创 电商数仓3.0 DWD层业务数据之事实表处理

创建支付事实表(事务型)drop table if exists dwd_fact_payment_info;create external table dwd_fact_payment_info ( `id` string COMMENT 'id', `out_trade_no` string COMMENT '对外业务编号', `order_id` string COMMENT '订单编号', `user_id` string COMMENT '用户编号',

2020-11-04 17:59:41 467

原创 电商数仓3.0 DWD层业务数据之维度表处理

创建商品维度表(全量)商品维度表主要是将商品表SKU表、商品一级分类、商品二级分类、商品三级分类、商品品牌表和商品SPU表退化为商品表。-- dwd-业务数据-创建商品维度表(全量)DROP TABLE IF EXISTS `dwd_dim_sku_info`;CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品id', `spu_id` string COMMENT 'spuid', `pric

2020-11-04 16:17:37 949

原创 电商数仓3.0 DWD层用户行为数据处理

启动日志格式// 一条启动日志JSON格式{ "common": { "ar": "420000", "ba": "Xiaomi", "ch": "xiaomi", "md": "Xiaomi 9", "mid": "mid_896", "os": "Android 11.0", "uid": "130", "vc": "v2.1.111" }, "start": { "entry": "notice", "loading_time": 4243, "o

2020-11-03 17:52:39 313

原创 电商数仓3.0 ODS层业务数据处理

建表-- 订单表(增量及更新)-- hive (gmall)>drop table if exists ods_order_info;create external table ods_order_info ( `id` string COMMENT '订单号', `final_total_amount` decimal(16,2) COMMENT '订单金额', `order_status` string COMMENT '订单状态', `user_id` s

2020-10-29 16:43:39 251

原创 电商数仓3.0 ODS层用户行为数据处理

创建日志表ods_log-- ODS创建日志表ods_logdrop table if exists ods_log; -- 创建表存在先删除CREATE EXTERNAL TABLE ods_log (`line` string) -- 创建外部表,字段就是jsonPARTITIONED BY (`dt` string) -- 按照时间创建分区STORED AS -- 指定存储方式,读数据采用LzoTextInputFormat; INPUTFORMAT 'com.hadoop.mapred

2020-10-28 16:17:41 184

原创 电商数仓3.0 数仓搭建之DataGrip连接Hive客户端

启动界面连接Hive客户端这边要进行一个配置(先不慌,我们要先启动hiveserver2)启动hiveserver2// 启动hiverserver2[scorpion@warehouse102 ~]$ hiveserver2配置连接hive客户端参数这边在进行测试连接时,可能会下载一个驱动,点击下载即可测试连接出现如图所示即可显示数据库显示控制台控制台选择数据库...

2020-10-27 16:44:35 318 1

原创 电商数仓3.0 数仓搭建之DataGrip安装

资料官网地址:https://www.jetbrains.com/datagrip/链接:https://pan.baidu.com/s/1-SguDZQM8miv-RXNWXpG7A提取码:axgeWelcome to DataGrip SetupChoose Install Location修改安装路径(next)Installation Options安装选项(next)Choose Start Menu Folder选择开始菜单的一个文件夹(next)Completin

2020-10-27 16:27:56 310

原创 电商数仓3.0 数仓搭建之Hive关于Yarn调度器并发度问题解决

默认队列defaultYarn默认调度器为Capacity Scheduler(容量调度器),且默认只有一个队列——default。如果队列中执行第一个任务资源不够,就不会再执行第二个任务,一直等到第一个任务执行完毕。解决办法一:增加ApplicationMaster资源比例,进而提高运行app数量。解决办法二:创建多队列,比如增加一个hive队列。// 由于未指定队列,初始化的 spark session 默认占用 defaul 队列,且会一直占用该队列,直到 hive 客户端退出hive (d

2020-10-27 11:58:49 384

原创 电商数仓3.0 数仓搭建之Hive on Spark 配置

资料Spark官网jar下载:http://spark.apache.org/downloads.html链接:https://pan.baidu.com/s/17Wu0-T_mwfKtckaqJP8yVg提取码:rn60兼容问题官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。解压// 解压[scorpion@warehouse102 09_Spark]$ tar -zxvf

2020-10-26 17:46:26 650

原创 电商数仓3.0 业务数据模块之Hive安装

资料参考博客:https://blog.csdn.net/qq_40180229/article/details/104858967链接:https://pan.baidu.com/s/1V554UcEuawYl9J7VQmEqMA提取码:506m

2020-10-26 15:56:28 145 1

原创 电商数仓3.0 业务数据导入到HDFS

同步策略全量:base_dic(编码字典表)、base_trademark(品牌表)、base_category3(商品三级分类表)、base_category2(商品二级分类表)、base_category1(商品一级分类表)、activity_info(活动表)、activity_shu(活动参与商品表)、activity_rule(优惠规则表)、coupon_indo(优惠券表)、sku_info(SKU商品表)、spu_info(SPU商品表)、cart_info(加购表

2020-10-23 17:35:45 217

原创 电商数仓3.0 同步策略

为什么会有同步策略1. 基于大数据环境下的数据,若将数据从DB中导入到HDFS中。每天导入的方式都是将一张表数据中所有数据都全部导入都HDFS(全量导入),如订单表16号、17号、18号。。。的数据都会导入到HDFS中会造成这么一种情况,HDSF中17号分区的数据存储着16号和17号的数据,18号分区中会存储16号、17号和18号的数据。。如下所示:由此可以看出,每天全量导入后,保存当天最新的分区即可,前面分区数据可以删除掉,若是数据量过大,将会造成任务变慢,且单个分区数据量会越来越大2. 为了改变

2020-10-23 15:34:46 428

原创 电商数仓3.0 业务数据模块之Sqoop安装

资料参考博客:https://blog.csdn.net/qq_40180229/article/details/104843630链接:https://pan.baidu.com/s/1dmr6cUe4fo6IcXH_9X1oNw提取码:7w1b修改配置文件// 在/opt/module/sqoop-1.4.7/conf 目录下,重命名配置文件[scorpion@warehouse102 conf]$ mv sqoop-env-template.sh sqoop-env.sh// 修改配置

2020-10-22 10:38:57 99

原创 电商数仓3.0 EZDML业务数据建模

下载地址采用EZDML这款数据库设计工具进行数据建模:http://www.ezdml.com/download_cn.html新建模型导入数据库配置连接导入数据库表建立表关系选中主表(主键所在表)点 “连接” 按钮点击从表,配置连接条件效果展示缩略图...

2020-10-21 16:55:38 367

原创 电商数仓3.0 业务数据生成

资料链接:https://pan.baidu.com/s/19TqiPAfDwaMYGjtbbNW-Sw提取码:niuo创建数据库导入数据库结构脚本生成业务数据// 在 /opt/module/ 目录下创建dblog文件夹[scorpion@warehouse102 module]$ mkdir dblog// 把gmall2020-mock-db-2020-04-01.jar和application.properties上传到warehouse102的/opt/module/dbl

2020-10-21 16:23:46 247

原创 电商数仓3.0 业务数据模块之MySQL安装

资料参考博客:https://blog.csdn.net/qq_40180229/article/details/108755530链接:https://pan.baidu.com/s/1LoAqJ3HjEK6gFOTmzXdiSA提取码:kvbd删除原有MySQL[scorpion@warehouse102 07_mysql]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps[scorpion@wareh

2020-10-21 15:49:11 132

原创 电商数仓3.0 数据采集模块之消费Kafka数据Flume安装

资料文档查看地址:http://flume.apache.org/FlumeUserGuide.htmlFlume官网地址:http://flume.apache.org/下载地址:http://archive.apache.org/dist/flume/参考博客:https://blog.csdn.net/qq_40180229/article/details/104523248链接:https://pan.baidu.com/s/1EWOiiNWyIWTYjxYfBfZplw提取码:3hti

2020-10-21 11:09:53 184 1

原创 电商数仓3.0 数据采集模块之采集日志Flume安装

资料文档查看地址:http://flume.apache.org/FlumeUserGuide.htmlFlume官网地址:http://flume.apache.org/下载地址:http://archive.apache.org/dist/flume/参考博客:https://blog.csdn.net/qq_40180229/article/details/104523248链接:https://pan.baidu.com/s/1EWOiiNWyIWTYjxYfBfZplw提取码:3hti

2020-10-20 12:21:41 167

saprk_ch_es_realtime的MDB创建表语句,自动生成db数据jar包

基于spark + ch + es 的一个spark实时数仓,其中做日活为采集日志,接下来为需要业务数据处理接下来的数据,那么MDB中的表生成语句包括插入语句,每日生成的业务数据jar包为此资源

2020-09-21

面向对象.xmind

面向对象的xmind思维导图,包含了类与类的成员、面向对象三大特性、关键字三个部分,对于正在学java基础的同学来说是一个比较好的整理,能够帮助回忆或者帮助自己整理脑中琐碎的知识点

2019-12-16

springmvc_day01.rar

springmvc+mybatis+spring整合的一个比较常规性的模板

2019-08-15

spring_test.rar

spring的简单描述,spring的IOC的了解,spring的DI的了解,spring的注入方式,注入类型,spring的第一次项目开发演示,spring的配置文件信息

2019-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除