SmallScorpion

吾生若有志，则以数据照星辰，明而透之；以技术踏大海，敢而往之；以代码忖余生，积而累之。故，不负韶华。

原创【FLINK】浅谈Flink中对于乱序数据处理保证

浅谈Flink中对于乱序数据处理保证

2022-03-02 16:39:37 2144

原创【FLINK】浅谈Flink中WaterMark在分布式环境下的传递

我们大多数的工作环境所搭建的都是分布式集群模式，那么从上一篇中我们了解了WaterMark的原理。现在在分布式的并行处理下，两个Task同时处理数据时他们所在Task的WaterMark是不相同的，Flink是如何保证WaterMark正常运行的呢。定义数据流及并行任务的数据流向，这里的延迟我们依然设置成3秒第一次处理数据第二次处理数据Watermark是用于处理乱序事件的，而正确的处理乱序事件，通常用Watermark机制结合window来实现。...

2022-03-01 21:42:51 1620

原创【FLINK】浅谈Flink中WaterMark原理和特点

首先我们需要知道当Flink以Event Time(事件时间) 模式处理数据时。Flink会以处理的数据自身所带的时间戳来对代码中基于时间的算子进行逻辑和计算。WaterMark为单调递增的一个特殊的数据定义一条数据流定义窗口和WaterMark第一条数据第二条数据第三条数据第四条数据第五条数据第六条数据第七条数据第八条数据第九条数据第十条数据第十一条数据第十二条数据第十四条数据通过暴力的画图已经有了一个比较清晰的了解了对于Wat

2022-03-01 18:42:29 1466

原创【FLINK】浅谈Flink中min()和minBy()的区别

浅谈Flink中min()和minBy()的区别

2022-02-28 20:26:27 902

原创【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

浅谈Spark数据读取并行度获取及数据分区存储

2022-02-15 15:27:30 1734

原创【KAFKA】浅谈Kafka数据可靠性保证

浅谈Kafka数据可靠性保证

2022-01-04 20:24:39 1128

原创【HADOOP】浅谈Yarn的工作机制

浅谈Yarn的工作机制

2021-12-19 15:23:36 1024

原创【HADOOP】浅谈Hadoop中MapReduce工作机制

浅谈Hadoop中MapReduce工作机制

2021-12-15 22:58:23 1686

原创【HADOOP】浅谈DataNode工作机制

浅谈DataNode工作机制

2021-12-13 20:15:31 1542

原创【ZOOKEEPER】浅谈Zookeeper工作机制

浅谈Zookeeper工作机制

2021-12-11 23:11:29 1125

原创【HADOOP】浅谈NameNode和SecondaryNameNode的工作机制

浅谈NameNode和SecondaryNameNode的工作机制

2021-12-10 21:19:01 768

原创【SQL】SQL中简单的行转列题解

SQL行转列

2021-12-09 19:25:14 195

原创【SCALA】Scala在windows安装及细节处理

第一步：这边下载的是windows 2.11.8版本scala的zip下载链接：https://www.scala-lang.org/download/2.11.8.html注意：如果安装的msi的在cmd提示你"此时不应有 \scala\bin\scala.bat"，注意你应该是把scala安装到了有空格的目录，毕竟默认安装目录是Program Files (x86)第二步：解压后配置环境变量先创建SCALA_HOME的系统变量指定到scala的解压目录在进行系统的环境变量(path)配置

2021-12-09 16:43:08 1103

原创【Linux】CentOS 7 初级命令

修改网络IP:vi /etc/sysconfig/network-scripts/ifcfg-ens查看当前网络IP:ip a给自己系统安装‘tar’命令yum install -y tar防火墙命令systemctl status firewalld -- 当前状态systemctl stop firewalld -- 关闭systemctl start firewalld -- 打开systemctl disable firewalld -- 永久关闭.

2021-12-07 20:20:57 359

原创一个算法小白对动态规划的自我安慰似的理解

前段时间刷了一阵子leetcode,除了一些比较常见的对数据的处理，最多的就是关于动态规划了，可能是经过这些题目对我的摧残，在看到刷到一道题中下面这个评论，于是我决定对它下手了，如果你也有同样经历，那么我们一起对它下手另外附上网上我看过得最好得一篇文章:https://www.zhihu.com/question/23995189...

2020-12-17 17:45:37 299 2

原创电商数仓3.0 ADS层会员主题相关需求分析处理

会员信息-- ads-会员-会员信息drop table if exists ads_user_topic;create external table ads_user_topic( `dt` string COMMENT '统计日期', `day_users` string COMMENT '活跃会员数', `day_new_users` string COMMENT '新增会员数', `day_new_payment_users` string COMMENT '新

2020-11-23 17:53:01 557

原创电商数仓3.0 ADS层设备主题相关需求分析处理

设备活跃数(日、周、月)增加 is_weekend 和 is_monthend 字段的意义在于将日周月三个量的计算频率保持一致，都是每天执行一次，后续如果想求完整的周活只要是字段为 Y 就行-- 创建表drop table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk

2020-11-17 17:14:29 453

原创电商数仓3.0 DWS层和DWT层数据处理之每日地区统计

创建DWS每日地区统计表drop table if exists dws_area_stats_daycount;create external table dws_area_stats_daycount( `id` bigint COMMENT '编号', `province_name` string COMMENT '省份名称', `area_code` string COMMENT '地区编码', `iso_code` string COMMENT 'iso编码',

2020-11-09 16:52:38 443

原创电商数仓3.0 DWS层和DWT层数据处理之每日活动统计

创建DWS每日活动统计表drop table if exists dws_activity_info_daycount;create external table dws_activity_info_daycount( `id` string COMMENT '编号', `activity_name` string COMMENT '活动名称', `activity_type` string COMMENT '活动类型', `start_time` string C

2020-11-09 16:38:28 291

原创电商数仓3.0 DWS层和DWT层数据处理之每日商品行为

创建DWS每次商品行为表drop table if exists dws_sku_action_daycount;create external table dws_sku_action_daycount ( sku_id string comment 'sku_id', order_count bigint comment '被下单次数', order_num bigint comment '被下单件数', order_amount decimal(16,2)

2020-11-09 16:32:47 798

原创电商数仓3.0 DWS层和DWT层数据处理之每日会员行为

创建DWS每日会员行为表drop table if exists dws_user_action_daycount;create external table dws_user_action_daycount( user_id string comment '用户 id', login_count bigint comment '登录次数', cart_count bigint comment '加入购物车次数', order_count bigint comme

2020-11-09 16:26:36 335

原创电商数仓3.0 DWS层和DWT层数据处理之每日设备行为

创建DWS层每日设备行为表每日设备行为，主要按照设备id统计。-- dws层-每日设备行为drop table if exists dws_uv_detail_daycount;create external table dws_uv_detail_daycount( `mid_id` string COMMENT '设备id', `brand` string COMMENT '手机品牌', `model` string COMMENT '

2020-11-06 17:35:53 390

原创电商数仓3.0 DWD层业务数据之事实表处理

创建支付事实表(事务型)drop table if exists dwd_fact_payment_info;create external table dwd_fact_payment_info ( `id` string COMMENT 'id', `out_trade_no` string COMMENT '对外业务编号', `order_id` string COMMENT '订单编号', `user_id` string COMMENT '用户编号',

2020-11-04 17:59:41 635

原创电商数仓3.0 DWD层业务数据之维度表处理

创建商品维度表(全量)商品维度表主要是将商品表SKU表、商品一级分类、商品二级分类、商品三级分类、商品品牌表和商品SPU表退化为商品表。-- dwd-业务数据-创建商品维度表(全量)DROP TABLE IF EXISTS `dwd_dim_sku_info`;CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品id', `spu_id` string COMMENT 'spuid', `pric

2020-11-04 16:17:37 1066

原创电商数仓3.0 DWD层用户行为数据处理

启动日志格式// 一条启动日志ＪＳＯＮ格式{ "common": { "ar": "420000", "ba": "Xiaomi", "ch": "xiaomi", "md": "Xiaomi 9", "mid": "mid_896", "os": "Android 11.0", "uid": "130", "vc": "v2.1.111" }, "start": { "entry": "notice", "loading_time": 4243, "o

2020-11-03 17:52:39 383

原创电商数仓3.0 ODS层业务数据处理

建表-- 订单表（增量及更新）-- hive (gmall)>drop table if exists ods_order_info;create external table ods_order_info ( `id` string COMMENT '订单号', `final_total_amount` decimal(16,2) COMMENT '订单金额', `order_status` string COMMENT '订单状态', `user_id` s

2020-10-29 16:43:39 343

原创电商数仓3.0 ODS层用户行为数据处理

创建日志表ods_log-- ODS创建日志表ods_logdrop table if exists ods_log; -- 创建表存在先删除CREATE EXTERNAL TABLE ods_log (`line` string) -- 创建外部表，字段就是jsonPARTITIONED BY (`dt` string) -- 按照时间创建分区STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat； INPUTFORMAT 'com.hadoop.mapred

2020-10-28 16:17:41 260

原创电商数仓3.0 数仓搭建之DataGrip连接Hive客户端

启动界面连接Hive客户端这边要进行一个配置(先不慌，我们要先启动hiveserver2)启动hiveserver2// 启动hiverserver2[scorpion@warehouse102 ~]$ hiveserver2配置连接hive客户端参数这边在进行测试连接时，可能会下载一个驱动，点击下载即可测试连接出现如图所示即可显示数据库显示控制台控制台选择数据库...

2020-10-27 16:44:35 388 1

原创电商数仓3.0 数仓搭建之DataGrip安装

资料官网地址：https://www.jetbrains.com/datagrip/链接：https://pan.baidu.com/s/1-SguDZQM8miv-RXNWXpG7A提取码：axgeWelcome to DataGrip SetupChoose Install Location修改安装路径(next)Installation Options安装选项(next)Choose Start Menu Folder选择开始菜单的一个文件夹(next)Completin

2020-10-27 16:27:56 395

原创电商数仓3.0 数仓搭建之Hive关于Yarn调度器并发度问题解决

默认队列defaultYarn默认调度器为Capacity Scheduler（容量调度器），且默认只有一个队列——default。如果队列中执行第一个任务资源不够，就不会再执行第二个任务，一直等到第一个任务执行完毕。解决办法一：增加ApplicationMaster资源比例，进而提高运行app数量。解决办法二：创建多队列，比如增加一个hive队列。// 由于未指定队列，初始化的 spark session 默认占用 defaul 队列，且会一直占用该队列，直到 hive 客户端退出hive (d

2020-10-27 11:58:49 480

原创电商数仓3.0 数仓搭建之Hive on Spark 配置

资料Spark官网jar下载：http://spark.apache.org/downloads.html链接：https://pan.baidu.com/s/17Wu0-T_mwfKtckaqJP8yVg提取码：rn60兼容问题官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5，所以需要我们重新编译Hive3.1.2版本。解压// 解压[scorpion@warehouse102 09_Spark]$ tar -zxvf

2020-10-26 17:46:26 742

原创电商数仓3.0 业务数据模块之Hive安装

资料参考博客：https://blog.csdn.net/qq_40180229/article/details/104858967链接：https://pan.baidu.com/s/1V554UcEuawYl9J7VQmEqMA提取码：506m

2020-10-26 15:56:28 183 1

原创电商数仓3.0 业务数据导入到HDFS

同步策略全量：base_dic(编码字典表)、base_trademark(品牌表)、base_category3(商品三级分类表)、base_category2(商品二级分类表)、base_category1(商品一级分类表)、activity_info(活动表)、activity_shu(活动参与商品表)、activity_rule(优惠规则表)、coupon_indo(优惠券表)、sku_info(SKU商品表)、spu_info(SPU商品表)、cart_info(加购表

2020-10-23 17:35:45 290

原创电商数仓3.0 同步策略

为什么会有同步策略1. 基于大数据环境下的数据，若将数据从DB中导入到HDFS中。每天导入的方式都是将一张表数据中所有数据都全部导入都HDFS(全量导入)，如订单表16号、17号、18号。。。的数据都会导入到HDFS中会造成这么一种情况，HDSF中17号分区的数据存储着16号和17号的数据，18号分区中会存储16号、17号和18号的数据。。如下所示：由此可以看出，每天全量导入后，保存当天最新的分区即可，前面分区数据可以删除掉，若是数据量过大，将会造成任务变慢，且单个分区数据量会越来越大2. 为了改变

2020-10-23 15:34:46 504

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

saprk_ch_es_realtime的MDB创建表语句，自动生成db数据jar包

面向对象.xmind

springmvc_day01.rar

spring_test.rar

空空如也