自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 python基本算法

在单变量线性回归中,自变量和 因变量之间的关系可以用一条直线来表示 线性回归模型的基本形式为 ,其中 表示因变量,x 表示自变量, 和 分别表示截距 和斜率, 表示误差项 线性回归模型的目标是通过最小化误差项的平方和(损失函数)来找到 最佳的和值(求导),使得模型对数据的拟合效果最好。在进行特征筛选的时候,IV值能较好的反应特征变量的预测能力,特征变量对于预测结果做出的贡献越大,它的价值就越大,相对应的IV值越大,因此根据IV值的大小,我们便能筛选出所需要的特征变量。

2024-07-11 11:01:27 546

原创 python(斐波那契、素数、闰年、水仙花、回文数)

回文”是指正读反读都能读通的句子,它是古今中外都有的一种修辞方式和文字游戏,如“我为人人,人人为我”等。水仙花数(Narcissistic number)也被称为超完全数字不变数(pluperfect digital invariant, PPDI)、自恋数、自幂数、阿姆斯壮数或阿姆斯特朗数(Armstrong number),水仙花数是指一个 3 位数,它的每个数位上的数字的 3次幂之和等于它本身。斐波那契数列是指这样一个数列:1,1,2,3,5,8,13,21,34,55,89……

2024-05-27 11:59:50 563

原创 HBase 数据库

HBase 两 个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default。不同的是,HBase 定义表时只需要声明列族即可,不需 要声明具体的列。数据行具有可排序的键和任意数量的列。(列)组成,数据是按照 RowKey 的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。④ 解决HBase和 Hadoop的 log4j兼容性问题,修改HBase的jar包,使用Hadoop的jar包。

2024-04-08 20:28:25 2279 1

原创 flinkCDC

在 Flink 1.11 引入了 CDC 机制,CDC 的全称是 Change Data Capture,核心思想是:监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费,是目前非常成熟的同步数据库变更方案。

2024-04-06 21:01:08 648 2

原创 Flink Sql 的查询

WITH提供了一种编写辅助语句的方法,以便在较大的查询中使用。这些语句通常被称为公共表表达式(Common Table Expression, CTE),可以认为它们定义了仅为一个查询而存在的临时视图。用作根据 key 进行数据去重对于流查询,计算查询结果所需的状态可能无限增长。状态大小取决于不同行数。可以设置适当的状态生存时间(TTL)的查询配置,以防止状态过大。但是,这可能会影响查询结果的正确性。如某个 key 的数据过期从状态中删除了,那么下次再来这么一个 key,由于在状态中找不到,就又会输出一遍。

2024-04-02 20:19:04 1302 1

原创 Flink SQL

Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用Table API或者SQL来实现;这两种API对于一张表执行相同的查询操作,得到的结果是完全一样的。我们主要还是以流处理应用为例进行讲解。

2024-04-01 17:00:24 2198

原创 Flink中的时间和窗口

在批处理统计中,我们可以等一批数据都到齐后统一处理。但是在实时处理统计中,我们是来一条数据处理一条数据,那么我们怎么统计最近一段时间内的数据呢?引入“窗口”。所谓的“窗口”,一般就是划定的一段时间范围,也就是“时间窗对在这个范围内的数据进行处理,就是所谓的窗口计算。所以窗口和时间往往是不分开的。接下来我们就深入了解一下Flink中得到时间语义和窗口的应用。

2024-03-31 11:59:37 2320

原创 flink水位线案例

Flink水位线例题

2024-03-30 11:58:08 501 2

原创 flink水位线

周期性水位线生成器(Periodic Generator)周期性生成器一般是通过onEvent()观察判断输入的事件,而在onPeriodicEmit()里发出水位线。// 自定义水位线的产生env.print();@Override@Override// 告诉程序数据源里的时间戳是哪一个字段@Override// 延迟时间// 观察到的最大时间戳@Override// 每来一条数据就调用一次// 更新最大时间戳@Override。

2024-03-29 17:07:08 1095 1

原创 flink技术作实时分析

网站流量模拟日志数据,flink技术作实时分析

2024-03-28 20:01:47 392 2

flink水位线案例 中的数据源

数据源

2024-03-30

flink中的时间语义和水位线及迟到处理

Flink 中的窗口(窗口的作用,窗口的分类,Windows API,窗口函数)和时间语义(时间语义,水位线,使用步骤)以迟到数据处理(推迟水位线推进,设置窗口延迟关闭,使用测流接受迟到的数据)基于时间的合流-双流联结join

2024-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除