自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 flink原理与知识点

Processing Time是Flink系统中最简单的一种时间概念,基于Processing Time时间概念,Flink的程序性能相对较高,延时也相对较低,对接入到系统中的数据时间相关的计算完全交给算子内部决定,时间窗口计算依赖的时间都是在具体算子运行的过程中产生,不需要做任何时间的对比和协调。事件时间(EventTime)是每个独立事件在产生它的设备上发生的时间,这个时间通常在事件进入Flink之前就已经嵌入到事件中,时间顺序取决于事件产生的地方,和下游数据处理系统的时间无关。

2023-10-09 09:31:38 98 1

原创 托管项目-综合系统介绍

资产托管业务:指资产托管人接受投资者的委托,对投资者委托资产管理人 管理的财产进行保管,并监督投资管理人运作,防范委托资产风险。并根据 资产运作的特点,提供相应的资产保管、资金清算、会计核算、投资监督及 信息披露等服务的一项中间业务,旨在保护投资者权益。平台最终形态托管网银-增值服务。

2023-09-07 10:11:05 335 1

原创 资管-监管报送系统介绍

2018年4月,一行两会、外管局联合发布《关于规范金融机构资产管理业务的指导意见》(即资管新规),对银行理财带来深远的影响,理财业务逐步打破刚兑、规范资产投资标准、限制投资比例,对银行理财专业化管理提出了更高的要求。同年下半年,银保监会配套出台了《商业银行理财业务监督管理办法》和《商业银行理财子公司管理办法》,监管机构在理财产品分类管理、净值化管理、规范资金池运作、理财产品期限匹配、规范委外业务等方面提出了明确的监管要求。因此,银行理财普遍会更加重视投资过程和投资结果,监管机构对理财子公司的数据报送要求更高

2023-09-07 09:29:41 541 1

原创 剑指大数据-flink学习精要demo

对于连接流ConnectedStreams 的处理操作,需要分别定义对两条流的处理转换,因此接口中就会有两个相同的方法需要实现,用数字“1”“2”区分,在两条流中的数据到来时分别调用。如果我们能确定乱序程度,那么设置对应时间长度的延迟,就可以等到所有的乱序数据了。这时生成水位线的时间戳,就是当前数据流中最大的时间戳减去延迟的结果,相当于把表调慢,当前时钟会滞后于数据的最大时间戳。⚫Iterable<UK> keys():获取映射状态中所有的键(key),返回一个可迭代 Iterable 类型;

2023-05-09 17:11:16 400

原创 测试水位线和窗口的使用demo

当水位线到达窗口结束时间时,窗口就会闭合不再接收迟到的数据,因为根据水位线的定义,所有小于等于水位线的数据都已经到达,所以显然 Flink 会认为窗口中的数据都到达了(尽管可能存在迟到数据,也就是时间戳小于当前水位线的数据)。

2023-04-13 10:13:02 188

原创 Hadoop + Spark 大数据巨量分析与机器学习整合开发实战-学习笔记

Hadoop + Spark 大数据巨量分析与机器学习整合开发实战 手撸代码

2023-04-11 11:33:42 3189

原创 flink中的水位线是什么

在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟, 用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数据的时间戳来驱动的。但在分布式系统中,这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化,如果遇到窗口聚合这样的操作,其实是要攒一批数据才会输出一个结果,那么下游的数据就会变少,时间进度的控制就不够精细了。另外,数据向下游任务传递时,一般只能传输给一个子任务(除广播外),这样其他的并行子任务的时钟就无法推进了。例如一个时间戳为

2023-04-11 11:23:28 147

原创 Spring+MyBatis企业应用实战-学习笔记

【代码】Spring+MyBatis企业应用实战-学习笔记。

2023-04-07 10:35:27 409

原创 Java实战-学习笔记

java实战 手撸笔记

2023-04-07 10:35:09 283

原创 PySpark实战指南-学习笔记

PySpark实战指南 手撸代码

2023-04-07 10:30:03 85

原创 scala cook book-学习笔记

ScalaCookBook手撸代码

2023-04-07 10:27:17 91

原创 scala函数式编程-学习笔记

scala函数式编程 手撸代码

2023-04-07 10:27:08 402

原创 spark高级数据分析-学习笔记

spark高级数据分析 手撸代码

2023-04-07 10:21:30 223

原创 利用python进行数据分析-学习笔记

利用python进行数据分析手撸代码

2023-04-07 10:17:56 894

原创 scala编程-学习笔记

scala编程学习手撸代码

2023-04-07 10:12:45 390 1

原创 数据科学指南-学习笔记

数据科学指南,手撸代码

2023-04-07 10:04:43 138 1

原创 维度建模分享

主键有两种形式:代理键和自然键,代理键是无业务含义的键,自然键是有业务含义的键,它们都是用于标识某维度的具体值。第二种方式是保持维度主键不变,将多值属性放在维度的多个属性字段中,这种方式使用简单,但扩展性较差,比较适合于固定数量的值。维度表中表示维度的字段,称为维度属性;尽可能包含所有与业务过程相关的事实,可以建立核心模型与扩展模型分离体系,核心模型中的字段支持常用的核心业务,且必。该建模思想的出发点是为了整合企业全域数据,将分布在各个业务系统中的数据按企业关心的业务主题进行梳理与合并,

2023-04-06 09:30:49 85 1

原创 hive优化小记

不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。如果有更多的阶段可以并行执行,那么job可能就越快完成。谓词下推后,过滤条件在map端执行,减少了map端的输出,降低了数据在集群上传输的量,节约了集群的资源,也提升了任务的性能。从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能;

2023-04-04 15:42:33 369 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除