自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(463)
  • 资源 (18)
  • 收藏
  • 关注

原创 大数据(9f)Flink双流JOIN

使用状态列表实现 INNER JOIN(双流connect后CoProcessFunction)基于间隔的JOIN(Interval Join)基于窗口的JOIN(Window Join)

2022-11-27 09:20:20 717

原创 Python工程师Java之路(h)Java字符串拼接+null拼接处理

Java版本:1.8String的concatStringBuilder和StringBuffer的appendString的joinStringJoinerStringUtils.join场景:拼接SQLPhoenixMySQL

2022-11-24 22:25:19 877

原创 大数据(9f)Flink状态编程

Managed StateOperator StateListStateBroadcastStateKeyed StateValueStateListStateMapStateReducingStateAggregatingState状态后端

2022-11-24 00:07:00 542

原创 Python工程师Java之路(v)Socket极简代码

TCP服务端Client/Server结构:客户端和服务器结构TCP传输控制协议(Transmission Control Protocol)可靠的连接UDP用户数据报协议(User Datagram Protocol)发送端发出数据时,不会确认接收端是否存在;接收端接收数据时,不会向发送端反馈是否收到网络传输的基本单位 :数据报(Datagram)客户端UDP接收端发送端socket

2022-11-23 14:01:49 407

原创 大数据(9d)Flink转换算子Transform

TransformmapflatMapfilterunionconnectprocesskeyByreducesum、max、minKeyedProcessFunctionProcessFunctionKeyedStream

2022-11-23 12:57:31 421

原创 大数据(9f)Flink富函数RichFunction

生命周期运行时上下文RichFunctionRuntimeContextFlink1.14.6

2022-11-22 16:30:54 1515 1

原创 大数据(9e)图解Flink窗口

Non-Keyed的窗口的流的并行度=1本地开发环境:WIN10+IDEA代码模板pom.xmllog4j.propertiesJava模板按键分区(Keyed)、非按键分区(Non-Keyed)KeyedNon-Keyed窗口的分类基于时间的窗口基于事件个数的窗口窗口函数示例代码ReduceFunctionAggregateFunctionProcessWindowFunct

2022-11-21 00:35:50 377

原创 大数据(9d)Flink流处理核心编程练习:计算PV和UV

本地开发环境(WIN10+IDEA)Flink之Transform练习模板计算PV:每个页面的浏览量UV:每个页面的访客数(按设备ID去重)Page ViewUnique Visitor

2022-11-19 19:32:06 324 2

原创 Python工程师Java之路(u)Java循环输入

使用Java语言实现循环输入输出Scanner(System.in)

2022-11-18 11:19:48 260

原创 CentOS7自有服务和软件包

什么是程序全称计算机程序或电脑程式,简称程序,是一组计算机能识别和执行的指令什么是进程(Process)?计算机程序关于某数据集合上的一次运行活动什么是服务?特定的进程什么是自有服务?Linux系统开机后 自动运行的 服务例如:SSH服务rpmyum

2022-11-17 18:51:15 596 1

原创 图解CentOS7集群时钟同步chronyd

对于物理机集群,需要使用统一的时间,本文使用时钟同步技术来实现默认的 外部网络的 时钟服务器 在国外,速度较慢换成 国内的 时钟服务,速度较快步骤1、修改时区每台机执行2、安装chrony每台机执行,查看有无安装chrony每台机执行,安装chrony每台机执行,设置chrony开机自启3、选1台机作为时钟服务器以作为内网集群的时钟服务器,其它机与本机时间进行同步而本机与阿里云时间进行同步,配置chrony做如下修改改完后,重启chrony服务4、其他机器同步时间

2022-11-17 10:44:09 1100 1

原创 SQL计算均值遇到NULL

当数值列中含有NULL,将不被计算如果业务需求要把NULL行计算入内方案1:把NULL转0方案2:先求和,再除以 权数

2022-11-13 15:15:58 953

原创 Python工程师Java之路(t)SpringBoot极速极简入门代码

SpringBoot实现数据服务接口pom.xmlapplication.propertiesApplicationbeancontrollerservicemapper

2022-11-13 10:47:54 644

原创 大数据(5r)ClickHouse客户端

命令行客户端ClickHouse服务的版本号查询clickhouse-client下载方法Python连ClickHouseJava连接ClickHouse

2022-11-04 20:32:32 2328

原创 内网搭建git服务器

步骤1、安装git2、创建用户3、创建仓库地址的目录4、切换用户5、生成密钥6、发送密钥给自己7、创建代码仓库8、下载代码Windows11生成密钥对,并把公钥放到git服务器,用于免密1、打开git终端2、配置用户名3、生成密钥并查看公钥4、将公钥复制到git服务器

2022-10-28 22:04:06 3631

原创 CentOS7修改MySQL8数据存储路径

MySQL数据文件默认在/var下,本文要将其修改到自定义目录/data下,以下操作的用户是root。1、查看数据存储路径2、停止MySQL3、修改配置文件4、迁移数据文件5、启动MySQL

2022-10-28 10:53:10 789

原创 大数据(5p)ClickHouse异于平常SQL的语法

ClickHouse的JOIN逻辑ClickHouse单引号和双引号窗口函数ClickHouse临时表ClickHouse窗口函数

2022-10-28 09:31:44 1307

原创 创建钉钉群聊机器人,使用Python发送消息,使用DolphinScheduler发送告警

1.1、创建群(然后将别人移出群聊)1.2、单击群设置>智能群助手1.3、在机器人管理页面选择自定义机器人1.4、输入机器人名字1.5、创建完成,要记下Webhook(就是消息发送的地址)1.6、机器人创建完成后会在群报道,点击机器人头像也可查看Webhook。使用DolphinScheduler发送告警

2022-10-27 09:23:15 1499

原创 Python生成连续星期序列

在商业数据分析中,会对销量按天、周、月、季、年汇总按星期聚合的格式可以是:2022年第01周、2022w51、202251…在某些零售行业中,线下零售假日销量高于工作日因此,在按周汇总时,希望以星期一作为周的起点对于需要跨年的场景,期望将以 年内第1个星期一 作为 年的第一周,此前归入上一年最后一周,例如下面例如,2023-01-01归属到2022w52那周。

2022-10-24 23:56:40 413

原创 数据分析SQL日期维度表生成(含节假日)

创建MySQL日期维度表,借助Python写入数据。临时表(以2022为例,缺双十一、七夕,HIVE日期维度表HIVE近30天日期序列HIVE近48小时序列MySQL日期维度表

2022-10-10 00:33:14 2543

原创 数据分析SQL库存相关计算逻辑

库存库存成本成本价×数量在数仓建模中,库存表属于周期型快照事实表(dwd_stock)库存量 是 半可加事实,昨天库存不能和今天库存相加,佛山库存可与广州库存相加。

2022-10-07 23:56:45 1398

原创 大数据(5q)ClickHouse元数据

ClickHouse常用系统表表(system.tables)列(system.columns)查询表和字段注释

2022-10-06 18:24:32 1414

原创 数据分析SQL移动平均值

对序列的值,按一定窗口大小并顺序滑动,计算全部算术平均值例:对于序列X1,X2,...XnX1​,X2​,...Xn​计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1​+X2​+X3​​,3X2​+X3​+X4​​,3X3​+X4​+X5​​...

2022-10-04 00:14:08 2672

原创 大数据(9h)FlinkSQL

Flink有两种关系型API来做流批统一处理:Table API和SQL动态表(Dynamic Tables)是Flink支持流数据的Table API和SQL的核心概念动态表是随时间变化的查询动态表将生成一个连续查询动态表连续查询额外依赖

2022-10-03 14:24:57 1087

原创 大数据(5o)ClickHouse常用表引擎

合并树家族MergeTree排序键主键分区数据生命周期其它设置ReplacingMergeTreeSummingMergeTree日志家族其它内存引擎表引擎表引擎作用:数据的存储方式和位置支持哪些查询以及如何支持并发数据访问索引的使用(如果存在)是否可以执行多线程请求数据复制参数

2022-09-25 00:21:31 782

原创 大数据(5n)ClickHouse常见数据类型

整数、数字越界浮点数十进制小数boolean字符串日期、时间、时间戳日期时间时区时间戳数组

2022-09-22 22:44:09 775

原创 数据开发中的数据质量校验

数据开发不同于后端开发之处在于:后端开发可是有测试妹子帮忙进行功能测试的噢~而数据开发工程师却没有。数据逻辑错误不像功能bug那么明显,计算结果错误并不会使程序报错对此建立数据逻辑校验机制,包括:左联前后数量校验(联表后数据量=左表数据量)度量值是否可加每日分区数据量统计数值类型校验,是否越界,是否损失精度重复值和NULL检测时间数据类型校验,注意时区...

2022-09-01 09:24:41 1132

原创 查询所有HIVE表分区数据量

查询HIVE表分区的数据占用和行数,用于数据治理通常,每天一个分区;通常,今天查看昨天分区数据量本文日期分区字段为ymd

2022-08-30 08:41:48 8265 1

原创 HIVE消费者画像

消费者画像,是以消费者ID(通常是用户ID)作唯一标识,统计消费者的各项指标通常业务系统数据库没有专门存储消费者的表,只有用户信息表用户注册后,并不一定会消费,消费的用户占比可能很小消费者画像的构建 需要借助 用户维度表 和 子订单明细表常见指标累计金额、近期金额(近1天、7天、30天金额)累计订单数、近期订单数累计商品数、近期商品数最近1次消费时间、最早1次消费时间最近1次消费地址消费地区(1~n个)曾购品牌(类目)曾购类目(列表)购买间隔。

2022-08-21 21:43:06 856 3

原创 CDH6.3.2之Kafka配置和命令

如图示,每5分钟,日志清理程序 会根据日志保留策略 来清理符合删除条件的日志。:每个主题分区保留在日志中的数据量,设-1时无限制。创建,则消费者偏移量保存在ZooKeeper中。:点击具有Kafka服务的主机,然后点击组件。:日志保留时长,设-1时无限制,建议3天。创建,则消费者偏移量保存在Kafka中。会把主题以往所有数据都读取出来)建议给4~6G每个Broker。如果不知道CDH装哪,就把。可接收的单个消息的最大值(...

2022-08-10 17:04:28 3606

原创 Linux文件权限管理基础

在多用户计算机系统的管理中,权限是指 某个特定的用户 具有特定的系统资源使用权利chmod

2022-08-08 09:41:23 311

原创 SQL退单次数计算

如果1个父订单下有3个子订单其中2个子订单 退单那么 父订单状态=部分退下单数=1退单数 也要算作1,不是2,不是或实际逻辑 还是应该 以 需求提出人 为准。

2022-08-05 18:04:38 260

原创 数据迟到超过1天

如果高延时情况下仍丢迟到很多数据,就应优化源头数据采集程序。任务可得到99.9%的数据,剩下的迟到数据可忽略不计。流数据中有2个时间,1个是程序时间,1个是事件时间。Flume有个按时间滚动文件的参数,滚动中的文件以。数据上传到服务端的时间是15点23分01秒。通常会给Flume配置时间拦截器,使得。程序时间:数据被服务端接收的时间。事件时间=15点23分00秒。程序时间=15点23分01秒。默认会用Flume的程序时间。一般来说,数据延时不会太大。事件时间:事件发生的事件。任务,装载的数据数据不全。...

2022-08-03 22:58:59 432

原创 MySQL获取月份、季度、星期

获取年份和月份,返回字符串类型的数据。获取月份,返回数字类型的数据。

2022-08-03 22:29:38 1912

原创 HIVE内部表和外部表互转ALTER语法

HIVE内部表和外部表互转alter table tbl propertiesEXTERNAL_TABLE 外部表MANAGED_TABLE 内部表(管理表)

2022-08-01 14:30:12 831

原创 Linux进程监测和操控之top、ps、kill、nice、renice命令

程序使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合进程正在执行的一个程序或命令;每个进程都占用一定的系统资源%CPUCPUUsage任务占用的CPU时间占总CPU时间的百分比。

2022-08-01 00:34:45 1222

原创 CDH之Impala原理、安装、调优,以及Python连接Impala

官方图标ClouderaImpala是一款时髦的、开源的、大规模并行处理的SQL引擎为Hadoop提供低延时、高并发的查询分析功能。

2022-07-18 17:53:10 2899

原创 HIVE常用的字符串处理函数

截取,替换,正则表达式替换,拼接,分割,去除空格,大小写转换,长度,JSON解析,转MAP,

2022-06-24 21:36:29 828

原创 使用Sqoop把ADS层数据导出到MySQL

sqoopadsexporthivepython正则表达式

2022-06-18 17:08:29 576

原创 Linux设置开机自启

systemctl enable/etc/rc.localchkconfig

2022-06-15 18:28:33 19433

编译好的Atlas服务和HIVE-hook

版本2.1.0 apache-atlas-2.1.0-server.tar.gz和apache-atlas-2.1.0-hive-hook.tar.gz

2022-02-03

ClickHouse2021年的安装包

解压后有4个ClickHouse的安装包

2021-09-01

ElasticSearch6.6压缩Linux压缩包

ElasticSearch6.6+kibana-6.6.0+elasticsearch-analysis-ik-6.6

2021-08-25

AI古诗生成2021版.rar

Python程序写诗【训练1分钟】古诗生成,原创链接: https://yellow520.blog.csdn.net/article/details/86726619

2021-06-20

hadoop-3.1.0.rar

适用于Windows10+IDEA上开发hadoop3.13的安装包(或者叫:压缩包;依赖) https://yellow520.blog.csdn.net/article/details/115712233

2021-04-14

segment.rar

Java+Maven实现中文分词:https://yellow520.blog.csdn.net/article/details/115035978

2021-04-06

Spark中文分词+文本分类.rar

Scala中文分词+SparkML逻辑回归 实现 中文文本分类

2021-03-25

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除