- 博客(463)
- 资源 (18)
- 收藏
- 关注
原创 大数据(9f)Flink双流JOIN
使用状态列表实现 INNER JOIN(双流connect后CoProcessFunction)基于间隔的JOIN(Interval Join)基于窗口的JOIN(Window Join)
2022-11-27 09:20:20
717
原创 Python工程师Java之路(h)Java字符串拼接+null拼接处理
Java版本:1.8String的concatStringBuilder和StringBuffer的appendString的joinStringJoinerStringUtils.join场景:拼接SQLPhoenixMySQL
2022-11-24 22:25:19
877
原创 大数据(9f)Flink状态编程
Managed StateOperator StateListStateBroadcastStateKeyed StateValueStateListStateMapStateReducingStateAggregatingState状态后端
2022-11-24 00:07:00
542
原创 Python工程师Java之路(v)Socket极简代码
TCP服务端Client/Server结构:客户端和服务器结构TCP传输控制协议(Transmission Control Protocol)可靠的连接UDP用户数据报协议(User Datagram Protocol)发送端发出数据时,不会确认接收端是否存在;接收端接收数据时,不会向发送端反馈是否收到网络传输的基本单位 :数据报(Datagram)客户端UDP接收端发送端socket
2022-11-23 14:01:49
407
原创 大数据(9d)Flink转换算子Transform
TransformmapflatMapfilterunionconnectprocesskeyByreducesum、max、minKeyedProcessFunctionProcessFunctionKeyedStream
2022-11-23 12:57:31
421
原创 大数据(9f)Flink富函数RichFunction
生命周期运行时上下文RichFunctionRuntimeContextFlink1.14.6
2022-11-22 16:30:54
1515
1
原创 大数据(9e)图解Flink窗口
Non-Keyed的窗口的流的并行度=1本地开发环境:WIN10+IDEA代码模板pom.xmllog4j.propertiesJava模板按键分区(Keyed)、非按键分区(Non-Keyed)KeyedNon-Keyed窗口的分类基于时间的窗口基于事件个数的窗口窗口函数示例代码ReduceFunctionAggregateFunctionProcessWindowFunct
2022-11-21 00:35:50
377
原创 大数据(9d)Flink流处理核心编程练习:计算PV和UV
本地开发环境(WIN10+IDEA)Flink之Transform练习模板计算PV:每个页面的浏览量UV:每个页面的访客数(按设备ID去重)Page ViewUnique Visitor
2022-11-19 19:32:06
324
2
原创 CentOS7自有服务和软件包
什么是程序全称计算机程序或电脑程式,简称程序,是一组计算机能识别和执行的指令什么是进程(Process)?计算机程序关于某数据集合上的一次运行活动什么是服务?特定的进程什么是自有服务?Linux系统开机后 自动运行的 服务例如:SSH服务rpmyum
2022-11-17 18:51:15
596
1
原创 图解CentOS7集群时钟同步chronyd
对于物理机集群,需要使用统一的时间,本文使用时钟同步技术来实现默认的 外部网络的 时钟服务器 在国外,速度较慢换成 国内的 时钟服务,速度较快步骤1、修改时区每台机执行2、安装chrony每台机执行,查看有无安装chrony每台机执行,安装chrony每台机执行,设置chrony开机自启3、选1台机作为时钟服务器以作为内网集群的时钟服务器,其它机与本机时间进行同步而本机与阿里云时间进行同步,配置chrony做如下修改改完后,重启chrony服务4、其他机器同步时间
2022-11-17 10:44:09
1100
1
原创 SQL计算均值遇到NULL
当数值列中含有NULL,将不被计算如果业务需求要把NULL行计算入内方案1:把NULL转0方案2:先求和,再除以 权数
2022-11-13 15:15:58
953
原创 Python工程师Java之路(t)SpringBoot极速极简入门代码
SpringBoot实现数据服务接口pom.xmlapplication.propertiesApplicationbeancontrollerservicemapper
2022-11-13 10:47:54
644
原创 大数据(5r)ClickHouse客户端
命令行客户端ClickHouse服务的版本号查询clickhouse-client下载方法Python连ClickHouseJava连接ClickHouse
2022-11-04 20:32:32
2328
原创 内网搭建git服务器
步骤1、安装git2、创建用户3、创建仓库地址的目录4、切换用户5、生成密钥6、发送密钥给自己7、创建代码仓库8、下载代码Windows11生成密钥对,并把公钥放到git服务器,用于免密1、打开git终端2、配置用户名3、生成密钥并查看公钥4、将公钥复制到git服务器
2022-10-28 22:04:06
3631
原创 CentOS7修改MySQL8数据存储路径
MySQL数据文件默认在/var下,本文要将其修改到自定义目录/data下,以下操作的用户是root。1、查看数据存储路径2、停止MySQL3、修改配置文件4、迁移数据文件5、启动MySQL
2022-10-28 10:53:10
789
原创 大数据(5p)ClickHouse异于平常SQL的语法
ClickHouse的JOIN逻辑ClickHouse单引号和双引号窗口函数ClickHouse临时表ClickHouse窗口函数
2022-10-28 09:31:44
1307
原创 创建钉钉群聊机器人,使用Python发送消息,使用DolphinScheduler发送告警
1.1、创建群(然后将别人移出群聊)1.2、单击群设置>智能群助手1.3、在机器人管理页面选择自定义机器人1.4、输入机器人名字1.5、创建完成,要记下Webhook(就是消息发送的地址)1.6、机器人创建完成后会在群报道,点击机器人头像也可查看Webhook。使用DolphinScheduler发送告警
2022-10-27 09:23:15
1499
原创 Python生成连续星期序列
在商业数据分析中,会对销量按天、周、月、季、年汇总按星期聚合的格式可以是:2022年第01周、2022w51、202251…在某些零售行业中,线下零售假日销量高于工作日因此,在按周汇总时,希望以星期一作为周的起点对于需要跨年的场景,期望将以 年内第1个星期一 作为 年的第一周,此前归入上一年最后一周,例如下面例如,2023-01-01归属到2022w52那周。
2022-10-24 23:56:40
413
原创 数据分析SQL日期维度表生成(含节假日)
创建MySQL日期维度表,借助Python写入数据。临时表(以2022为例,缺双十一、七夕,HIVE日期维度表HIVE近30天日期序列HIVE近48小时序列MySQL日期维度表
2022-10-10 00:33:14
2543
原创 数据分析SQL库存相关计算逻辑
库存库存成本成本价×数量在数仓建模中,库存表属于周期型快照事实表(dwd_stock)库存量 是 半可加事实,昨天库存不能和今天库存相加,佛山库存可与广州库存相加。
2022-10-07 23:56:45
1398
原创 大数据(5q)ClickHouse元数据
ClickHouse常用系统表表(system.tables)列(system.columns)查询表和字段注释
2022-10-06 18:24:32
1414
原创 数据分析SQL移动平均值
对序列的值,按一定窗口大小并顺序滑动,计算全部算术平均值例:对于序列X1,X2,...XnX1,X2,...Xn计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1+X2+X3,3X2+X3+X4,3X3+X4+X5...
2022-10-04 00:14:08
2672
原创 大数据(9h)FlinkSQL
Flink有两种关系型API来做流批统一处理:Table API和SQL动态表(Dynamic Tables)是Flink支持流数据的Table API和SQL的核心概念动态表是随时间变化的查询动态表将生成一个连续查询动态表连续查询额外依赖
2022-10-03 14:24:57
1087
原创 大数据(5o)ClickHouse常用表引擎
合并树家族MergeTree排序键主键分区数据生命周期其它设置ReplacingMergeTreeSummingMergeTree日志家族其它内存引擎表引擎表引擎作用:数据的存储方式和位置支持哪些查询以及如何支持并发数据访问索引的使用(如果存在)是否可以执行多线程请求数据复制参数
2022-09-25 00:21:31
782
原创 数据开发中的数据质量校验
数据开发不同于后端开发之处在于:后端开发可是有测试妹子帮忙进行功能测试的噢~而数据开发工程师却没有。数据逻辑错误不像功能bug那么明显,计算结果错误并不会使程序报错对此建立数据逻辑校验机制,包括:左联前后数量校验(联表后数据量=左表数据量)度量值是否可加每日分区数据量统计数值类型校验,是否越界,是否损失精度重复值和NULL检测时间数据类型校验,注意时区...
2022-09-01 09:24:41
1132
原创 查询所有HIVE表分区数据量
查询HIVE表分区的数据占用和行数,用于数据治理通常,每天一个分区;通常,今天查看昨天分区数据量本文日期分区字段为ymd
2022-08-30 08:41:48
8265
1
原创 HIVE消费者画像
消费者画像,是以消费者ID(通常是用户ID)作唯一标识,统计消费者的各项指标通常业务系统数据库没有专门存储消费者的表,只有用户信息表用户注册后,并不一定会消费,消费的用户占比可能很小消费者画像的构建 需要借助 用户维度表 和 子订单明细表常见指标累计金额、近期金额(近1天、7天、30天金额)累计订单数、近期订单数累计商品数、近期商品数最近1次消费时间、最早1次消费时间最近1次消费地址消费地区(1~n个)曾购品牌(类目)曾购类目(列表)购买间隔。
2022-08-21 21:43:06
856
3
原创 CDH6.3.2之Kafka配置和命令
如图示,每5分钟,日志清理程序 会根据日志保留策略 来清理符合删除条件的日志。:每个主题分区保留在日志中的数据量,设-1时无限制。创建,则消费者偏移量保存在ZooKeeper中。:点击具有Kafka服务的主机,然后点击组件。:日志保留时长,设-1时无限制,建议3天。创建,则消费者偏移量保存在Kafka中。会把主题以往所有数据都读取出来)建议给4~6G每个Broker。如果不知道CDH装哪,就把。可接收的单个消息的最大值(...
2022-08-10 17:04:28
3606
原创 SQL退单次数计算
如果1个父订单下有3个子订单其中2个子订单 退单那么 父订单状态=部分退下单数=1退单数 也要算作1,不是2,不是或实际逻辑 还是应该 以 需求提出人 为准。
2022-08-05 18:04:38
260
原创 数据迟到超过1天
如果高延时情况下仍丢迟到很多数据,就应优化源头数据采集程序。任务可得到99.9%的数据,剩下的迟到数据可忽略不计。流数据中有2个时间,1个是程序时间,1个是事件时间。Flume有个按时间滚动文件的参数,滚动中的文件以。数据上传到服务端的时间是15点23分01秒。通常会给Flume配置时间拦截器,使得。程序时间:数据被服务端接收的时间。事件时间=15点23分00秒。程序时间=15点23分01秒。默认会用Flume的程序时间。一般来说,数据延时不会太大。事件时间:事件发生的事件。任务,装载的数据数据不全。...
2022-08-03 22:58:59
432
原创 HIVE内部表和外部表互转ALTER语法
HIVE内部表和外部表互转alter table tbl propertiesEXTERNAL_TABLE 外部表MANAGED_TABLE 内部表(管理表)
2022-08-01 14:30:12
831
原创 Linux进程监测和操控之top、ps、kill、nice、renice命令
程序使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合进程正在执行的一个程序或命令;每个进程都占用一定的系统资源%CPUCPUUsage任务占用的CPU时间占总CPU时间的百分比。
2022-08-01 00:34:45
1222
原创 CDH之Impala原理、安装、调优,以及Python连接Impala
官方图标ClouderaImpala是一款时髦的、开源的、大规模并行处理的SQL引擎为Hadoop提供低延时、高并发的查询分析功能。
2022-07-18 17:53:10
2899
编译好的Atlas服务和HIVE-hook
2022-02-03
AI古诗生成2021版.rar
2021-06-20
hadoop-3.1.0.rar
2021-04-14
离线数仓安装包.rar
2021-01-06
大数据入门安装包Hadoop、JDK等
2020-12-25
自然语言处理文本分类实验
2020-09-27
NLP文本10分类EXCEL
2020-09-19
region2019.xlsx
2020-05-28
中国行政区划【更新至2018-10-31】
2019-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅